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随 着 “互联 网 十 ”、 大 数据 时 代 的 到 来 ,人 类 已 经 从 信息 技术 
(Information Technology,IT) 时 代 逐 步 走 向 数据 技术 (Data Technology， 
DT) 时 代 。 业 务 应 用 数据 的 日 益 更 新 越 来 越 深刻 地 影响 着 企业 的 经 营 管理 
模式 ,这 当中 影响 最 大 的 就 是 企业 的 信息 管理 模式 。 一 方面 极 大 地 促进 了 
企业 的 发 展 , 另 一 方面 又 对 海量 信息 数据 的 存储 和 管理 提出 了 新 的 挑战 。 
对 于 数据 量 很 大 的 企业 级 数据 来 说 ,性 能 好 坏 非 常 重要 ,直接 影响 到 业务 的 
质量 。 因 此 如 何 有 效 使 用 数据 已 成 为 IT 系统 建设 中 极其 重要 的 基础 部 分 ， 
并 已 成 为 计算 机 领域 里 相对 独立 的 分 支 学 

大 数据 时 代 的 到 来 ,也 对 数据 安全 提出 了 更 高 的 要 求 , 对 于 信息 化 应 用 
而 言 , 灾 备 系统 的 建设 已 成 为 热点 。 随 着 2007 年 (信息 系统 灾难 恢复 规范 》 
(GB/T 20988 一 2007) 正 式 成 为 国家 标准 ,许多 用 户 对 数据 灾 备 从 观望 、 徘 
徊 转向 实际 应 用 。 随 着 虚拟 化 的 广泛 应 用 、 云 计算 的 出 现 , 以 及 数据 量 每 年 
的 高 速 增长 ,数据 类 型 和 来 源 的 多 样 化 ,使 得 在 如 此 复杂 的 环境 下 如 何 高 
效 、 安 全 可靠 ,完整 地 使 用 和 保存 宝贵 的 数据 资料 已 成 为 当务之急 ,只 有 使 
用 高 性 能 计算 机 网 络 存储 系统 ,才能 从 根本 上 解决 企业 日 益 增 长 的 需要 。 
而 自动 化 的 存储 管理 手段 ,不 仅 可 以 解决 现 有 企业 关键 数据 的 存储 和 管理 
的 需求 ,而 且 可 以 同时 为 网 络 上 各 种 工作 站 的 用 户 提 供 数 据 的 备份 ,减轻 系 
统管 理 员 的 负担 ,有 效 地 保护 宝贵 的 数据 及 人 力 资源 .这 样 在 不 幸 遇 到 灾难 
后 ,就 可 以 很 迅速 地 恢复 数据 ,使 整个 系统 在 最 短 的 时 间 内 重新 投入 正常 


[a 


本 。 

本 书 响应 国家 安全 号 召 ,坚持 “自主 开发 ,安全 可 控 ” 的 原则 ,基于 国内 
众多 知名 企业 如 精 容 数 安 、 人 大 金 仓 、 聚 比特 科技 等 具有 多 年 计算 机 系统 建 
设 、 存 储 系统 管理 \ 数 据 安全 管理 ,数据 备份 系统 建设 等 真实 项 目 案例 累积 
的 经 验 基础 上 所 提供 的 资料 ,致力 于 为 用 户 提供 最 完整 的 解决 方案 ,不 仅 能 
够 支持 企业 自身 的 操作 系统 平台 ,而 且 能 够 支持 COMPAQ 、IBM、Microsoft、 
SGI、SUN 等 各 种 主流 操作 系统 平台 和 多 种 数据 库 和 应 用 平台 ,涵盖 从 高 可 
用 性 、 远 程 /异地 容 灾 ,数据 整合 到 网 络 数据 备份 、 零 停机 备份 以 及 长 期 归档 
等 数据 管理 和 数据 保护 的 解决 方案 。 

本 书 内 容 概 况 如 下 。 
(1) 数据 存储 概述 篇 。 本 篇 主要 针对 计算 机 系统 中 与 存储 相关 的 技术 
进行 介绍 ,包括 存储 器 的 组 成 结构 .工作 原理 存储 管理 系统 以 及 不 同 存储 
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产品 技术 路 线 等 内 容 。 

(2) 数据 灾 备 概述 篇 。 本 篇 主要 是 针对 数据 灾 备 技术 的 不 同方 案 类 型 以 及 在 虚拟 环境 
下 如 何 实现 灾 备 技术 部 署 等 内 容 进 行 介绍 。 

(3) 数据 灾 备 应 用 篇 。 本 篇 主要 针对 整个 行业 典型 的 灾 备 技术 解决 方案 进行 介绍 和 模 
拟 , 以 及 对 大 型 数据 中 心 运 维 中 有 关 数 据 安全 的 运 维 服务 进行 介绍 。 

(4) 数据 灾 备 趋势 篇 。 本 篇 主要 讲述 云 计算 的 相关 技术 、 设 施 框架 类 型 以 及 各 种 云 环 
境 下 的 云 灾 备 和 数据 迁移 服务 技术 。 

本 书 不 仅 适合 作为 本 科 院 校 及 职业 院 校 计算 机 类 、 通 信 类 相关 专业 的 教材 使 用 ,也 可 作 
为 从 事 系 统 集成 .数据 容 灾 备 份 等 领域 工作 的 相关 技术 人 员 的 参考 用 书 。 

本 书 由 贾 如 春 负责 总 体 策划 设计 及 统 稿 ,并 与 企业 专家 周 晓 花 共同 担任 本 书 主 编 ， 
陈 新 华 . 王 宏 旭 、 吴 粟 担任 本 书 的 副 编辑 ,全 书 由 赵 克 林 教 授 及 企业 专家 康乐 主 审 。 感 谢 精 
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由 于 作者 水 平 有 限 ,本 书 涉 及 的 知识 面 较 广 , 虽 然 编者 已 经 尽 了 最 大 努力 ,但 书 中 难免 
存在 错漏 之 处 ,欢迎 广大 读者 批评 指正 。 
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第 1 章 数据 存储 基础 


(CS 任务 目标 
。 了 解数 据 存储 的 概念 与 发 展 历程 ; 
*。 了 解数 据 存储 的 原理 与 物理 结构 ; 
。 了 解数 据 存储 的 基本 介质 与 技术 ; 
。 了解 数据 灾难 与 容 灾 基 础 。 


(9 项目 背景 

存储 技术 作为 信息 技术 的 核心 之 一 ,一 直 伴 随 并 推动 着 IT 业 各 方面 技术 的 协同 发 展 ， 
是 当今 IT 领域 中 少数 发 展 最 为 迅速 的 热点 之 一 。 纸 的 发 明 记载 了 人 类 的 历史 和 文明 , 现 
代 信 息 存储 技术 则 大 大 超越 了 纸张 记录 的 含义 。 如 果 说 信息 代表 的 是 生存 和 生命 .进取 和 
发 展 ,那么 信息 的 价值 是 无 可 估量 的 ,而 存储 作为 信息 的 载体 使 信息 的 价值 得 到 实现 和 增 
值 , 也 就 是 说 ,存储 的 数据 才 是 现代 人 类 社会 的 真实 财富 所 在 。 


(CS 项 目 描述 

聚 比特 科技 有 限 公司 自 成 立 以 来 一 直 从 事 互 联网 和 电子 商务 等 业务 ,但 是 随 着 信息 化 
的 发 展 , 出 现 了 很 多 瓶颈 , 越 来 越 影响 着 企业 的 经 营 管理 模式 ,这 当中 影响 最 大 的 便 是 企业 
的 信息 管理 模式 , 随 着 应 用 互联 网 和 电子 商务 业务 应 用 的 增长 ,企业 信息 数据 呈 爆 炸 性 增 
长 ,一 方面 极 大 地 促进 了 企业 的 发 展 , 另 一 方面 又 对 海量 信息 数据 的 存储 和 管理 提出 了 新 的 
挑战 。 如 何 有 效 地 解决 这 些 问题 ,成 为 企业 及 研究 人 员 正在 思考 的 问题 。 数 据 存储 直接 影 
响 着 行业 的 发 展 ,也 影响 着 企业 自身 的 竞争 力 。 


( 国 项 目 分 析 
如 何 高 效 、 安 全 可靠 .完整 地 使 用 和 保存 宝贵 的 数据 资料 ,又 如 何 从 这 些 浩瀚 如 海 的 信 


息 中 顺利 地 找到 所 需要 的 信息 ,成 为 聚 比特 科技 有 限 公 司 的 当务之急 ,只 有 使 用 高 性 能 计算 
机 网 络 存 储 系统 ,才能 从 根本 上 解决 企业 数据 日 益 增长 的 需求 。 


/es 
(6 项 目 实现 
通过 企业 信息 化 专家 分 析 形 成 一 种 自动 化 的 存储 管理 手段 ,不 仅 可 以 解决 现 有 企业 关 


键 数据 的 存储 和 管理 需求 ,而 且 可 以 同时 为 网 络 上 各 种 工作 站 用 户 提供 数据 备份 的 解决 方 
案 ,减轻 系统 管理 员 的 负担 ,有 效 地 保护 宝贵 的 数据 及 人 力 资 源 。 并 且 当 数据 遇 到 灾难 后 ， 
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可 以 在 第 一 时 间 内 迅速 地 恢复 数据 ,使 整个 系统 在 最 短 的 时 间 内 重新 投入 正常 运行 。 





1.1 数据 存储 发 展 历史 


存储 为 信息 记录 ,是 伴随 人 类 活动 出 现 的 技术 。 自 世界 上 第 一 台 计算 机 问世 以 来 ,计算 
机 的 存储 器 件 也 在 不 断 地 发 展 更 新 ,从 一 开始 的 水 银 延 迟 线 存 储 器 、 磁 带 、 磁 鼓 、 磁 芯 , 到 现 
在 的 半导体 存储 器 、 磁 盘 、 光 盘 、 纳 米 存储 等 ,无 不 体现 着 科学 技术 的 快速 发 展 。 伴 随 着 计算 
机 的 飞速 发 展 ,计算 机 上 面 的 存储 器 也 出 现 了 翻天 覆 地 的 变化 。 也 可 以 说 ,存储 技术 的 飞 
跃 ,也 促进 了 计算 机 的 发 展 。 


1.1.1 信息 数据 发 展 


对 于 IT 行业 ,存在 一 个 耳熟能详 的 定律 , 即 摩尔 定律 。 摩 尔 定律 定义 如 下 : 从 现在 开 
始 的 每 18 个 月 , 微 处 理 器 的 性 能 提高 一 倍 , 而 价格 下 降 一 半 。 而 在 信息 世界 中 ,根据 各 种 应 
用 的 普及 以 及 大 量 数据 的 产生 ,定义 于 硬件 的 摩尔 定律 对 于 数据 的 增长 量 的 预测 也 同样 有 
用 。 在 当今 的 信息 环境 下 ,数据 将 随 着 时 间 的 推移 而 呈 几 何 级 数 增长 ,庞大 的 信息 使 得 人 们 
在 信息 存储 方面 所 花费 的 管理 和 维护 开销 大 大 增加 ,来 自 于 IDC 数字 宇宙 研究 中 心 预测 过 
全 球 的 数据 量 ,如 图 1-1 所 示 。 不 仅 如 此 ,如 何 安全 、 合 理 地 保存 这 些 新 增 的 数据 ,又 如 何 从 
这 些 浩瀚 如 海 的 信息 中 顺利 地 找到 人 们 所 需要 的 信息 ,这 些 问 题 成 为 摆 在 数据 管理 人 员 面 
前 的 难题 。 
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1-1 全 球 数据 量 急剧 增长 


自 计算 机 产生 以 来 ,数据 信息 的 处 理 能 力 大 幅 提高 ,这 也 使 得 数据 信息 爆炸 式 增 长 。 而 
在 1973 年 5 月 22 日 以 太 网 络 发 明之 后 ,更 多 的 数据 信息 通过 网 络 传递 于 分 布 在 全 球 各 地 
的 信息 系统 当中 。 当 大 部 分 的 IT 系统 管理 人 员 一 直 把 注意 力 放 在 如 何 提升 主机 、 网 络 的 
数据 处 理性 能 的 时 候 ,部 分 研究 人 员 却 已 经 将 注意 力 放 在 了 数据 的 存储 上 。 由 于 种 种 历史 
原因 ,数据 被 分 割 成 杂乱 且 分 散 存 放 的 “数据 孤岛 ,需要 的 信息 无 法 得 到 充分 的 利用 ,并 且 
设备 的 充分 利用 和 资源 的 共享 也 极为 困难 。 在 这 样 的 背景 下 出 现 的 存储 系统 ,从 本 质 上 解 
决 了 数据 集中 存储 、 共 享 和 管理 以 及 分 布 备份 的 问题 ,为 整个 系统 的 可 靠 、 便 捷 应 用 提供 了 
坚实 的 基础 。 
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越 来 越 多 的 IT 组 织 将 存储 系统 的 规定 与 建设 视 为 其 现 有 以 及 待 建 的 应 用 系统 赢得 差 
异化 竞争 优势 的 战略 性 重要 因素 。 越 来 越 多 的 IT 组 织 都 已 经 认识 到 了 数据 在 企业 中 所 起 
到 的 关键 性 作用 ,进而 清晰 地 认识 到 ,企业 需要 强大 .先进 ,便捷 的 存储 基础 设施 来 支持 企业 
的 数据 管理 。 正 是 基于 此 ,在 IT 设备 采购 过 程 中 ,更 多 的 采购 人 员 会 将 服务 器 和 存储 设备 
分 别 进行 采购 ,这 样 有 助 于 确保 存储 解决 方案 不 再 被 单纯 地 视 为 新 建 应 用 系统 的 附属 品 。 
对 于 现代 企业 而 言 , 这 是 一 种 新 的 尝试 的 开始 ,并 且 这 种 尝试 可 能 会 使 得 企业 在 应 用 系统 建 
设 的 初期 就 确立 其 优越 性 和 先进 性 。 而 随 着 存储 市 场 上 技术 、 产 品 的 日 益 成 熟 , 越 来 越 多 的 
IT 专业 人 员 将 深入 地 认识 存储 的 价值 ,主动 去 掌握 相关 的 技能 ,并 努力 地 将 这 一 潮流 继续 
推进 。 

伴随 着 数字 化 的 发 展 ,个 人 对 数据 空间 的 需求 逐渐 增加 ,包括 普通 的 照片 .DV、 流 行 音 
乐 . 经 典 电影 .重要 数据 的 保存 等 。 目 前 ,国内 大 约 有 6800 万 的 宽带 账号 ,而 且 这 个 数字 的 
增长 会 越 来 越 快 ,这 些 戈 恩 用 户 需要 更 大 .更 有 效 的 设备 来 存储 、 管 理 、 保 护 和 分 享 他 们 大 量 
的 数据 信息 。 

现在 企业 对 于 数据 的 依赖 性 愈加 严重 ,现代 的 企业 中 存在 大 量 的 IT 应 用 系统 用 于 处 
理 各 种 各 样 的 数据 一 产生 数据 、 销 售 数据 ,人 事 信息 、 客 户 信息 等 。 大 量 应 用 系统 的 上 线 
直接 导致 海量 数据 的 产生 ,而 美国 “9 . 11 事件 "表明 ,这 些 数据 甚至 直接 关系 着 企业 的 生死 
存亡 。 所 以 ,如 何 有 效 、 安 全 地 存储 这 些 海量 数据 ,已 经 成 为 当下 企业 面临 的 头等 大 事 。 
1.1.2 存储 的 基本 概念 

所 谓 存储 ,是 指 将 数据 信息 整合 并 保存 在 某 种 介质 上 的 一 个 过 程 的 结果 。 对 于 传统 的 
计算 机 系统 而 言 , 存 储 并 不 是 一 个 孤立 的 系统 ,是 依附 于 传统 应 用 的 一 个 系统 组 件 。 而 随 着 
计算 机 系统 的 发 展 和 数据 的 爆炸 式 增长 ,促使 存储 系统 的 发 展 朝 着 独立 化 的 方向 进行 。 

(1) 存储 设备 是 用 于 存放 数据 信息 的 设备 和 介质 。 

(2) 存储 是 一 个 系统 ,等 同 于 计算 机 系统 中 的 外 部 存储 系统 。 

(3) 存储 系统 独立 化 是 计算 机 技术 发 展 的 必然 结果 。 





1.2 数据 存储 原理 


1.2.1 存储 的 基本 原理 


存储 就 是 根据 不 同 的 应 用 环境 通过 采集 合理 、 安 全、 有效 的 方式 将 数据 保存 到 某 些 介质 
上 并 能 保证 有 效 的 访问 ,从 而 向 用 户 提供 一 套数 据 存 放 和 读 取 的 解决 方案 。 

存储 的 特征 如 下 : 

(1) 它 是 数据 临时 或 长 期 驻 留 的 物理 媒介 ; 

(2) 它 是 保证 数据 完整 安全 存放 的 方式 或 者 行为 。 

传统 计算 机 存储 系统 的 组 成 如 图 1-2 所 示 。 

在 计算 机 系统 中 ,存储 分 为 外 部 存储 和 内 部 存储 。 在 传统 的 计算 机 存储 系统 中 ,存储 通 
常 是 由 计算 机 内 置 的 硬盘 完成 ,而 采用 这 样 的 设计 方式 ,硬盘 本 身 的 缺陷 很 容易 成 为 系统 的 
性 能 瓶颈 ,并 且 由 于 机 箱 内 有 限 的 空间 ,限制 了 硬盘 数量 的 扩展 ,并 且 同 时 也 对 机 箱 内 的 散 
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一 | 运算 器 一 一 数据 流 
| 一 ~ 控制 流 
输入 设备 存储 器 输出 设备 
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图 1-2 传统 计算 机 存储 系统 的 组 成 

































































热 . 供 电 等 提出 了 严峻 的 挑战 。 再 加 上 不 同 的 计算 机 相互 独立 ,各 自 使 用 内 署 的 硬盘 ,导致 
从 总 体 看 来 存储 空间 的 利用 率 较 低 ,并且 分 散 的 数据 也 不 利于 数据 的 共享 和 备份 工作 。 

在 传统 的 C/S 架构 中 ,无 论 使 用 的 是 何 种 协议 ,存储 设备 都 直接 与 服务 器 相连 接 , 在 这 
样 的 结构 下 ,对 存储 设备 上 保存 的 所 有 数据 的 任何 读 写 操作 ,都 必须 由 服务 器 来 进行 ,这 样 
的 处 理 方式 给 服务 器 带 来 沉重 的 负担 。 外 部 存储 系统 的 出 现 ,彻底 将 服务 器 从 烦琐 的 IO 
操作 中 解放 出 来 ,使 服务 器 更 加 专业 化 ,使 之 仅仅 承担 应 用 数据 的 操作 任务 ,以 便 充分 地 释 
放 自 身 的 潜能 。 


1.2.2 常见 存储 设备 及 其 组 件 


在 计算 机 系统 中 ,存储 网 络 建立 了 独立 的 基于 网 络 的 存储 架构 ,增加 了 现 有 C/S 的 计 
算 机 拓扑 架构 ,从 而 从 整体 上 改变 了 传统 计算 机 存储 系统 的 模型 。 存 储 网 络 允许 存储 设备 
直接 连接 到 现 有 网 络 上 ,也 可 以 通过 专门 的 存储 网 络 进行 连接 。 这 一 技术 给 传统 的 存储 配 
置 方案 带 来 了 两 个 重要 的 变化 。 

(1) 存储 网 络 与 存储 设备 .服务 器 以 及 客户 机 之 间 建 立 了 更 多 的 直接 访问 路 径 ,使 用 户 
能 够 绕 过 大 量 的 服务 器 1/O 操作 而 直接 与 数据 发 生 联系 ,从 而 避免 了 对 服务 器 进行 不 必要 
的 访问 。 

(2) 存储 网 络 使 商务 应 用 系统 能 够 以 更 高 的 效率 访问 数据 。 换 言 之 ,存储 网 络 使 得 应 
用 系统 能 够 更 有 效 地 共享 数据 ,并 赋予 服务 器 更 为 强大 的 数据 连接 能 力 。 

1. 常见 存储 组 件 

当今 的 存储 技术 不 是 一 种 单独 的 技术 ,实际 上 ,完整 的 存储 系统 是 由 一 系列 组 件 构 
成 的 。 

目前 ,存储 系统 主要 分 为 硬件 架构 .软件 组 件 以 及 实际 应 用 时 的 存储 解决 方案 三 部 分 。 
而 硬件 架构 部 分 又 包括 外 置 的 存储 系统 , 即 存储 设备 ,比如 磁盘 阵列 、 磁 带 库 等 。 除 此 以 外 ， 
存储 连接 设备 用 于 互联 存储 设备 和 主机 系统 ,以 及 用 于 对 整个 存储 系统 做 管理 用 的 存储 管 
理 设 备 , 比 如 对 硬盘 框 做 管理 用 的 控制 框 等 。 

因为 软件 组 件 的 存在 ,使 存储 设备 的 可 用 性 得 到 了 大 大 的 提高 ,从 创建 不 同 的 RAID 级 
别 的 存储 资源 到 数据 的 镜像 .复制 ,自动 的 数据 备份 等 ,数据 操作 都 可 以 通过 对 存储 软件 的 

一 个 设计 良好 的 存储 解决 方案 .是 人 们 进行 数据 存储 工作 更 加 简单 易 行 的 最 佳 保障 ,设计 
优秀 的 存储 解决 方案 ,不 仅 可 以 使 存储 系统 实际 部 署 的 时 候 更 简单 容易 ,也 更 能 降低 客户 的 总 
体 拥有 成 本 (TCO) ,使 用 户 的 投资 能 得 到 良好 的 保护 。 如 图 1-3 所 示 为 一 个 存储 解决 方案 。 
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1-3 存储 解决 方案 


2. 常见 存储 介质 
常见 的 存储 介质 如 图 1-4 所 示 。 





图 1-4 常见 的 存储 介质 


(1) 硬盘 : 硬盘 是 一 种 非 易 失 性 的 ` 可 随机 编 址 .可 重 写 的 , 且 使 用 磁性 介质 盘 片 作为 
存储 介质 的 数据 存储 设备 ,其 特点 如 下 。 
中 寻 址 访问 ` 数 据 存储 速度 快 ,但 成 本 高 。 
@ 适合 做 快速 响应 访问 的 场合 。 
(2) 磁带 : 磁带 是 一 种 按 数据 发 送 的 顺序 将 数据 写 入 ,并 且 能 够 以 数据 的 存储 位 置 顺 
水 


数据 安全 与 灾 备 管理 
序 将 数据 读 出 , 读 写 速度 快 ,容量 大 , 脱 机 存放 容易 ,成 本 低 。 

@ 顺序 读 写 . 读 写 速度 快 、 容 量 大 、 脱 机 存放 容易 .成 本 低 ; 

@ 适合 做 长 期 保存 .快速 读 写 的 场合 。 

(3) 光盘 : 高 密度 光盘 使 用 的 是 光学 存储 介质 而 非 磁性 载体 , 它 是 用 聚焦 的 氢 离 子 激 
光束 处 理 记录 介质 的 方法 存储 和 再 生 信 息 的 一 种 数据 存储 设备 。 其 特点 如 下 。 

@ 寻 址 访问 ,保存 简单 ,可 靠 性 高 , 低 成 本 。 

@ 适合 做 长 期 的 数据 保留 且 对 写 速度 要 求 不 高 的 场合 。 

(4) 磁带 机 (Tape Drive) : 磁带 机 是 传统 数据 存储 备份 中 最 常见 的 一 种 存储 设备 。 磁 
带 机 一 般 指 单 驱动 器 产品 ,通常 由 磁带 驱动 器 和 磁带 构成 ,是 一 种 经 济 、 可 靠 、 容 量 大 、 速 度 
快 的 备份 设备 。 这 种 产品 采用 高 纠 错 能 力 编码 技术 和 写 后 即 读 通道 技术 ,可 以 大 大 提高 数 
据 备 份 的 可 靠 性 ,如 图 1-5 所 示 。 

(5) 磁带 库 (Tape Library) : 磁带 库 是 基于 磁带 的 备份 系统 ,磁带 库 由 多 个 驱动 器 ,多 
个 插 模 及 机 械 手 臂 组 成 ,并 可 由 机 械 手臂 自动 实现 磁带 的 拆 印 和 装填 。 它 能 够 提供 与 磁带 
机 相同 的 基本 自动 备份 和 数据 恢复 功能 .但 同时 具有 更 先进 的 技术 特点 。 它 可 以 多 个 驱动 
器 并 行 工 作 ,也 可 以 几 个 驱动 器 服务 于 不 同 的 服务 器 来 做 备份 ,存储 容量 高 达到 PB(1PB= 
1 000 000GB) 级 ,可 实现 连续 备份 .自动 搜索 磁带 等 功能 ,并 可 以 在 管理 软件 的 支持 下 实现 
智能 恢复 、 实 时 监控 和 统计 ,是 集中 式 网 络 备份 的 主要 设备 。 磁 带 库 不 仅 数据 存储 量 大 很 
多 ,而 且 在 备份 效率 和 人 工 占用 方面 拥有 无 可 比拟 的 优势 ,如 图 1-6 所 示 。 








图 1-5 磁带 机 1-6 ”磁带 库 


(6) 磁盘 阵列 (Disk Array) : 磁盘 阵列 由 一 个 或 者 多 个 磁盘 子 系统 (通常 是 可 访问 的 ) 
中 的 磁盘 组 成 的 磁盘 集合 ,这 些 磁盘 由 控制 软件 组 合 到 一 起 并 统一 控制 。 控 制 软 件 将 磁盘 
集合 的 总 磁盘 存储 容量 作为 一 个 或 者 多 个 虚拟 磁盘 提供 给 主机 。 控 制 软件 在 磁盘 控制 器 中 
运行 的 控制 软件 通常 称 为 固件 (Firmware) 或 者 微 码 (Microcode)。 在 主机 中 运行 的 控制 软 
件 通 常 称 为 卷 管理 器 (Volume Manager)。 磁 盘 阵 列 通常 由 一 个 或 者 多 个 控制 框 级 联 一 个 
或 者 多 个 扩展 框 构成 .可 以 为 应 用 系统 提供 高 可 靠 性 、 大 容量 的 数据 存储 空间 ,如 图 1-7 
所 示 。 

(7) 虚拟 磁带 库 (Virtual Tape Library, VTL): 虚拟 磁带 库 集成 了 仿真 软件 的 基于 磁 
盘 的 备份 系统 ,仿真 软件 可 使 基于 磁盘 的 系统 发 挥 磁带 库 的 作用 。 这 使 得 用 户 几 乎 不 需要 
更 改 就 能 利用 现 有 的 备份 与 恢复 过 程 和 软件 ,同时 提高 了 备份 与 恢复 性 能 ,可 满足 用 户 的 恢 
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复 时 间 和 恢复 点 目标 要 求 。 虚 拟 磁带 库 允许 使 用 现 有 的 磁带 备份 软件 ,这 使 得 管理 人 员 使 
用 磁带 机 做 备份 管理 的 经 验 可 以 被 延续 。VTL 由 三 部 分 组 件 构成 : 计算 机 硬件 、 应 用 软件 
(用 于 仿真 磁带 库 和 磁带 驱动 器 ) 以 及 磁盘 阵列 。VTL 允许 客户 配置 虚拟 磁带 驱动 器 、 虚 拟 
磁带 盒 和 指定 磁带 盒 容 量 。 与 物理 磁带 库 不 同 ,物理 磁带 库 需 要 购买 并 安装 额外 的 磁带 驱 
动 器 ,但 对 VTL 来 说 ,通过 改变 软件 配置 即 可 增加 虚拟 磁带 驱动 器 ,而 这 不 需要 花费 任何 
额外 的 硬件 成 本 ,如 图 1-8 所 示 。 
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图 1-7 磁盘 阵列 图 1-8 虚拟 磁带 库 


1.2.3 存储 网 络 的 分 类 


由 于 计算 机 技术 不 断 向 更 便宜 、 更 有 效 的 方向 发 展 ,早期 的 主机 式 计算 机 也 从 大 型 的 中 
心 式 系统 演化 为 便捷 的 、 企 业 级 的 服务 器 。 同 时 ,网 络 技术 对 计算 机 平台 的 演化 产生 了 相应 
的 影响 。 随 着 这 两 项 技术 的 逐渐 成 熟 , 以 及 对 计算 机 处 理 能 力 和 相关 数据 需求 的 不 断 增长 ， 
更 好 的 存储 技术 将 得 到 更 多 的 市 场 驱动 ,存储 网 络 也 由 此 而 生 。 

在 过 去 的 10 一 15 年 中 ,商业 的 模式 发 生 了 重大 的 改变 ,这 其 中 ,基于 互联 网 的 商业 应 用 
的 爆炸 性 增长 给 信息 的 获取 和 存储 技术 带 来 了 新 的 挑战 。 不 断 增 长 的 对 存储 能 力 的 需求 使 
许多 IT 组 织 不 堪 重 负 , 因 此 ,发 展 一 种 具有 低 成 本 ,高 效益 的 先进 存储 方式 就 成 为 必然 。 

1. DAS 

直接 连接 存储 (Direct Attached Storage,DAS) 是 指 将 存储 设备 通过 SCSI 线 缆 或 光纤 
通道 直接 连接 到 服务 器 上 。 随 着 用 户 数量 的 不 断 增长 ,尤其 是 用 户 数 达到 数 百 吉 字 节 (GB) 
以 上 时 ,其 在 备份 .恢复 .扩展 、 灾 备 等 方面 的 问题 开始 困扰 系统 管理 员 。 

早期 的 数据 存储 方式 大 都 是 采用 以 硬盘 为 主要 的 存储 媒体 ,对 于 网 络 上 的 文件 共享 及 
资料 的 存 取 ,都 需要 通过 文件 服务 器 来 完成 ,这 种 数据 存储 架构 称 之 为 直接 连接 存储 架构 。 
这 种 架构 当初 发 展 的 目的 就 是 希望 将 数据 资源 共享 给 网 络 上 的 使 用 者 ,但 这 种 方式 的 主要 
缺点 在 于 目前 使 用 的 文件 服务 器 都 需要 通过 某 种 常用 的 操作 系统 来 达到 资源 共享 的 目的 ， 
而 通常 的 操作 系统 的 设计 是 为 了 多 功能 用 途 而 规划 的 ,并 不 是 只 针对 数据 的 IO 部 分 去 做 
最 佳 化 处 理 , 因 此 文件 服务 器 这 个 角色 常常 会 因为 不 必要 的 驱动 程序 或 服务 占据 了 系统 资 
源 ,而 导致 文件 存 取 的 效能 下 降 。 

由 于 早期 的 网 络 以 及 应 用 非常 简单 .所 以 DAS 存储 架构 被 广泛 应 用 。 随 着 计算 能 力 、 
内 存 、 存 储 密度 和 网 络 带 宽 的 进一步 增长 , 越 来 越 多 的 数据 被 存储 在 个 人 计算 机 和 工作 站 
中 。 分 布 式 的 计算 和 存储 的 增长 对 存储 技术 提出 了 更 高 的 要 求 。 由 于 使 用 DAS., 存 储 设备 
与 主机 的 操作 系统 紧密 相连 ,数据 以 及 存储 空间 的 共享 存在 较 大 的 限制 。 同 时 ,服务 器 系统 
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也 因此 背 上 了 沉重 的 负担 ,因为 CPU 必须 同时 完成 磁盘 存 取 和 进程 运行 的 双重 任务 ,所 以 
不 利于 CPU 指令 周期 的 优化 ,典型 DAS 组 网 图 如 图 1-9 所 示 。 


CC DAs | 





应 用 服务 器 


文件 系统 光纤 通道 
SCSI, FC SCSI 协 议 
[着 应 用 服务 器 磁盘 阵列 


1-9 典型 DAS 组 网 图 




















DAS 具有 以 下 特点 : 

(1) 存储 设备 (RAID 系统 \ 磁 带 机 和 磁带 库 、 光 盘 库 ) 直 接连 接 到 服务 器 ; 

(2) 其 使 用 传统 的 .常见 的 连接 方式 ,容易 理解 .规划 和 实施 ; 

(3) 没有 独立 的 操作 系统 ,不 能 提供 跨 平台 的 文件 共享 ,不 同 平台 下 的 数据 需 分 别 
存储 ; 

(4) 各 个 DAS 系统 之 间 没 有 连接 ,数据 只 能 分 散 管理 ;备份 软件 需要 服务 器 支持 。 

2. NAS 

网 络 连接 存储 (Network Attached Storage, NAS) 是 一 种 文件 共享 服务 。NAS 拥有 自 
己 的 文件 系统 ,通过 NFS 或 CIFS 协议 对 外 提供 文件 访问 服务 ,因此 能 使 不 同 的 操作 系统 
进行 文件 共享 。NAS 从 结构 上 分 为 文件 服务 器 和 后 端 存储 系统 两 大 部 分 。 文 件 服务 器 上 
装 有 专门 的 操作 系统 ,通常 是 定制 的 UNIX、Linux 操作 系统 ,或 者 是 一 个 简化 的 Windows 
系统 。 这 些 操作 系统 为 文件 系统 管理 和 访问 做 了 专门 的 优化 。 文 件 服务 器 (FS) 利 用 NFS 
或 CIFS 协议 ,对 外 提供 文件 级 的 访问 ,因此 NAS 文件 服务 器 也 称 NAS 网 关 。 后 端 存 储 系 
统 主要 由 磁盘 阵列 构成 ,提供 数据 存储 的 空间 支持 ,另外 文件 服务 器 的 操作 系统 也 直接 集成 
在 磁盘 阵列 上 。 

随 着 商业 需求 的 增加 ,局 域 网 技术 得 到 广泛 地 实施 ,在 多 个 文件 服务 器 之 间 实 现 了 互 
联 ,为 实现 数据 共享 而 建立 了 一 个 统一 的 结构 。 随 着 计算 机 节点 的 增加 , 因 系 统 平台 不 兼容 
而 导致 数据 的 获取 日 趋 复杂 。 因 此 采用 广泛 使 用 的 局 域 网 加 工作 站 的 方法 ,对 文件 共享 、 互 
操作 性 和 节约 成 本 有 很 大 的 意义 。 

为 了 解决 扩展 及 性 能 的 问题 ,NAS 架构 应 运 而 生 , 这 是 一 种 直接 通过 现 有 业务 网 站 链 
接 的 方式 以 提供 不 同 的 系统 平台 间 进 行文 件 共享 的 存储 设备 。 其 设计 理念 主要 是 做 成 一 个 
专门 负责 文件 I/O 处 理 的 高 效能 文件 存储 设备 ,将 不 必要 的 服务 程序 .工具 软件 全 部 进行 
整合 ,并 且 针 对 文件 1/O 的 存 取 功 能 做 了 最 佳 化 的 处 理 , 使 得 对 文件 存 取 的 效率 上 较 传 统 
的 文件 服务 器 大 为 提升 。 

NAS 包括 一 个 特殊 的 文件 服务 器 和 存储 设备 ,NAS 服务 器 上 采用 优化 的 文件 系统 ,并 
且 安 装 有 预 配 置 的 存储 设备 。 由 于 NAS 是 连接 在 局 域 网 上 的 ,所 以 客户 端 可 以 通过 网 络 
与 NAS 系统 的 存储 设备 交换 数据 。 另 外 ,NAS 提供 对 多 种 网 络 文件 传输 协议 的 应 用 支持 ， 
诸如 NFS、CIFS 等 ,客户 端 系统 可 以 通过 磁盘 映射 与 数据 源 建立 虚拟 连接 。 
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对 网 络 上 的 使 用 者 而 言 ,NAS 就 像 是 一 个 大 型 的 文件 服务 器 一 样 ,NAS 设备 以 文件 共 

享 设备 的 形态 在 网 络 上 出 现 ,NAS 是 一 种 使 用 传统 的 以 太 网 作为 传输 介质 的 存储 装置 ,用 

户 将 所 需 共享 的 文件 集中 存放 在 NAS 设备 上 ,利用 标准 的 网 络 传输 协议 (例如 TCP/IP) 来 

与 网 络 上 的 服务 器 或 者 客户 机 通信 ,并 将 存储 空间 共享 给 网 络 上 的 服务 器 或 客户 机 使 用 。 

由 于 文件 的 集中 存放 ,这 使 得 共享 文件 的 控制 和 管理 更 加 容易 ,并 可 提升 IT 人 员 的 管理 效 
率 。 典 型 NAS 组 网 图 如 图 1-10 所 示 。 
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图 1-10 典型 NAS 组 网 图 


NAS 具有 以 下 特点 。 

(1) NAS 本 身 具 有 独立 的 操作 系统 ,通过 网 络 协议 可 以 实现 完全 跨 平台 的 文件 共享 。 

(2) NAS 可 以 实现 集中 的 数据 管理 ,并 且 很 多 NAS 产品 都 集成 了 本 地 的 备份 软件 ,可 
以 实现 无 服务 器 备份 功能 。 

(3) NAS 内 每 一 个 应 用 服务 器 通过 网 络 共享 协议 (如 NFS CIFS) 使 用 同一 个 文件 管理 

(4) 磁盘 1/O 会 占用 业务 网 络 带 宽 , 同 时 NAS 的 性 能 也 受到 业务 网 络 的 影响 。 

3. SAN 

存储 区 域 网 络 (Storage Area Network,SAN) 是 一 种 通过 网 络 方式 连接 存储 设备 和 应 
用 服务 器 的 存储 架构 ,这 个 网 络 专用 于 主机 和 存储 设备 之 间 的 访问 。 当 有 数据 的 存 取 需 求 
时 ,数据 可 以 通过 存储 区 域 网 络 在 服务 器 和 后 台 存 储 设备 之 间 高 速 传输 。 目 前 常用 的 SAN 
结构 根据 协议 和 连接 器 的 不 同 ,主要 可 以 分 为 两 种 : 一 种 是 FC SAN; 另 一 种 是 IP SAN。 
目前 主流 存储 厂商 的 FC SAN 的 数据 传输 率 已 经 达到 8Gbps。 

这 是 一 种 用 在 服务 器 与 存储 资源 之 间 的 .专用 的 、 高 性 能 的 网 络 体系 , 它 为 了 实现 大 量 
原始 数据 的 传输 而 进行 了 专门 的 优化 。SAN 是 一 个 存储 网 络 架 构 ,其 主要 作用 是 将 服务 器 
与 存储 设备 分 开 ,然后 利用 高 速 的 光纤 或 者 IP 网 络 将 二 者 连接 在 一 起 ,从 而 使 服务 器 可 将 
其 数据 处 理 任 务 完 全 移交 给 存储 装置 完成 ,而 服务 器 只 需要 专注 于 用 户 事务 工作 ,然后 再 利 
用 光纤 通道 或 者 IP 网 络 来 传输 数据 ,以 达到 服务 器 与 存储 装置 之 间 高 效 、 稳 定 的 存储 环境 。 

构架 SAN 使 用 的 典型 协议 组 是 光纤 通道 协议 (Fiber Channel,FC) ,在 使 用 FC 协议 构 

和 


数据 安全 与 灾 备 管理 
建 的 SAN 中 ,FC 承载 SCSI 指令 和 数据 ,并 为 其 提供 更 高 的 传输 效率 、 更 远 的 传输 距离 以 
及 更 好 的 传输 质量 。SAN 的 应 用 主要 集中 在 高 端 企 业 级 的 存储 应 用 上 ,这 些 应 用 通常 对 于 
人 性能、 元 余 度 和 数据 的 可 获得 性 都 有 很 高 的 要 求 。 

就 应 用 而 言 ,NAS 可 视 为 一 个 以 产品 为 导向 的 小 型 企业 文件 架构 的 解决 方案 ,而 SAN 
则 是 为 大 中 型 数据 存储 而 规划 与 建设 的 存储 架构 解决 方案 。 典 型 的 SAN 组 网 图 如 图 1-11 
所 示 。 





SAN 存 储 架 构 












































磁带 库 磁盘 阵列 
图 1-11 典型 的 SAN 组 网 图 


1.2.4 存储 网 络 的 比较 


目前 来 看 ,每 一 种 存储 形态 都 会 有 自己 的 优点 和 缺点 ,在 做 出 存储 方案 之 前 需要 权衡 一 
下 利 丈 。 至 少 有 三 个 比较 全 面 的 存储 选项 值得 考虑 , 即 直 连 存储 (DAS)、 网 络 直 连 存储 
(NAS) 和 存储 区 域 网 络 (SAN)。 

1. 直 连 存储 

接触 过 服务 器 的 人 都 会 对 DAS 比较 熟悉 。DAS 是 一 种 将 存储 介质 直接 安装 在 服务 器 
上 或 者 安装 在 服务 器 外 的 存储 方式 ,将 存储 介质 连接 到 服务 器 的 外 部 SCSI 通道 上 也 可 以 
认为 是 一 种 直 连 存储 方式 。 

由 于 这 种 存储 方式 在 磁盘 系统 和 服务 器 之 间 具有 很 快 的 传输 速率 ,因此 ,虽然 在 一 些 部 
门 中 一 些 新 的 SAN 设备 已 经 开始 取代 DAS, 在 要 求 快速 磁盘 访问 的 情况 下 ,DAS 仍然 是 
一 种 理想 的 选择 。 在 DAS 环境 中 ,运行 大 多 数 的 应 用 程序 都 不 会 存在 问题 ,所 以 用 户 没有 
必要 担心 应 用 程序 问题 ,从 而 可 以 将 注意 力 集中 在 其 他 可 能 会 导致 问题 的 领域 。 

以 下 情况 下 ,可 以 选择 DAS 方式 存储 。 

(1) 如 果 你 的 存储 系统 中 需要 快速 访问 ,但 是 公司 目前 还 不 能 接受 最 新 的 SAN 技术 的 
价格 时 ,或 者 SAN 技术 在 用 户 的 公司 中 还 不 是 一 种 必要 的 技术 时 。 

(2) 对 于 那些 对 成 本 非常 敏感 的 客户 来 说 ,在 很 长 一 段 时 间 内 ,DAS 仍然 是 一 种 比较 
便宜 的 存储 机 制 。 当 然 ,这 是 在 只 考虑 硬件 物理 介质 成 本 的 情况 下 才 有 这 种 结论 。 如 果 与 
设 


第 1 章 数据 存储 基础 





其 他 的 技术 进行 一 个 全 面 的 比较 ,考虑 管理 开销 和 存储 效率 等 方面 的 因素 , 则 DAS 将 不 再 
占有 绝对 的 优势 。 

(3) 对 于 那些 非常 小 的 不 再 需要 其 他 存储 介质 的 环境 来 说 。 

2. 网 络 直 连 存储 

如 实际 应 用 中 需要 增加 额外 容量 的 时 候 , 可 以 很 容易 地 扩展 NAS 设备 。 市 场 上 的 一 
些 NAS 设备 可 以 扩展 到 200TB 的 容量 。 在 那些 需要 对 数据 进行 块 级 访问 的 情况 中 ,对 数 
据 库 存储 和 Exchange 信息 存储 来 说 ,使 用 NAS 方式 更 适合 。 

以 下 情况 下 ,可 以 选择 NAS 方式 存储 : 

在 文件 级 访问 系统 中 ,数据 的 访问 是 通过 文件 名 来 实现 的 ,因为 文件 名 是 带 有 一 定 含义 
的 。 而 在 块 级 访问 系统 中 ,数据 的 访问 是 通过 数据 块 的 地 址 来 实现 的 ,这 个 地 址 是 特定 数据 
存放 的 位 置 。 在 一 个 客户 机 /服务 器 的 环境 中 ,如 果 需 要 从 文件 服务 器 读 取 一 个 文件 时 , 则 
要 指定 文件 .服务 器 来 完成 数据 块 的 读 取 工 作 , 并 且 将 得 到 的 数据 返回 给 用 户 就 可 以 了 。 数 
据 库 存储 和 Exchange 存储 在 这 种 方式 的 通信 过 程 中 存在 着 很 多 问题 ,所 以 它们 并 不 适合 
存储 于 NAS 设备 中 。 使 用 DAS 和 SAN 解决 方案 中 提供 的 块 级 访问 可 以 更 为 有 效 地 实现 
数据 库存 信和 交换 存储 中 的 数据 。 

虽然 在 需要 将 存储 空间 放 在 网 络 上 时 ,NAS 是 一 个 非常 好 的 解决 方案 ,但 是 NAS 还 有 
如 下 不 足 : 

(1) 在 拥有 相同 的 存储 空间 时 , 它 的 成 本 比 DAS 要 高 很 多 ; 

(2) 对 于 数据 库存 储 和 Exchange 存储 这 种 使 用 率 要 求 高 的 操作 来 说 不 是 很 适合 ; 

(3) 获得 数据 的 最 大 速率 受到 连接 到 NAS 的 网 络 速率 的 限制 ; 

(4) 在 存储 基础 设施 中 存在 潜在 的 节点 故障 的 可 能 。 

3. 存储 区 域 网 络 

在 为 存储 解决 方案 中 ,SAN 是 最 昂贵 的 存储 应 用 ,同时 也 是 最 复杂 的 应 用 。 虽 然 SAN 
在 初始 阶段 需要 投入 大 量 的 费用 ,但 是 SAN 却 可 以 提供 其 他 解决 方案 所 不 能 提供 的 能 力 ， 
并 且 在 合适 的 情形 下 可 以 为 公司 节约 一 定 的 资金 。 

SAN 解决 方案 通常 会 采取 以 下 两 种 形式 : 光纤 信道 以 及 iSCSI 或 者 基于 IP 的 SAN。 
光纤 信道 是 SAN 解决 方案 中 最 常用 的 类 型 ,基于 iSCSI 的 SAN 解决 方案 开始 大 量 出 现在 
市 场 上 ,与 光纤 通道 技术 相 比 较 而 言 ,这 种 技术 不 仅 具 有 良好 的 性 能 ,而 且 价 格 低廉 。 

SAN 真正 综合 了 DAS 和 NAS 两 种 存储 解决 方案 的 优势 。 例 如 ,在 一 个 很 好 的 SAN 
解决 方案 实现 中 ,可 以 得 到 一 个 完全 宛 余 的 存储 网 络 , 这 个 存储 网 络 具有 不 同 寻常 的 扩展 
性 ,确切 地 说 ,可 以 得 到 只 有 NAS 存储 解决 方案 才能 得 到 的 几 百 万 亿 字 节 (TB) 的 存储 空 
间 , 但 是 还 可 以 得 到 块 级 数据 访问 功能 ,而 这 些 功能 只 能 在 DAS 解决 方案 中 才能 得 到 。 对 
于 数据 访问 来 说 ,还 可 以 得 到 一 个 合理 的 速度 ,对 于 那些 要 求 大 量 磁盘 访问 的 操作 来 说 ， 
SAN 显然 具有 更 好 的 性 能 。 利 用 SAN 解决 方案 ,还 可 以 实现 存储 的 集中 管理 ,从 而 能 够 充 
分 利用 那些 处 于 空闲 状态 的 空间 。 更 有 优势 的 一 点 是 ,在 某 些 实现 中 ,甚至 可 以 配置 没有 内 
部 存储 空间 的 服务 器 ,要 求 所 有 的 系统 都 直接 从 SAN( 只 能 在 光纤 通道 模式 下 实现 ) 引 导 。 
这 也 是 一 种 即 插 即 用 技术 。 

SAN 确实 具有 很 多 的 优点 ,当然 SAN 还 有 较 大 的 缺陷 , 即 成 本 大 和 复杂 性 ,特别 是 在 
光纤 信道 中 这 些 缺 陷 尤 其 明显 。 使 用 光纤 信道 的 情况 下 ,合理 的 成 本 是 1TB 或 者 2TB, 需 
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要 五 万 到 六 万 美金 。 从 另 一 个 角度 来 看 ,虽然 新 推出 的 基于 iSCSI 的 SAN 解决 方案 只 需要 
两 万 到 三 万 美金 ,但 是 其 性 能 却 无 法 和 光纤 信道 相 比 较 。 在 价格 上 的 差别 主要 是 由 于 
iSCSI 技术 使 用 的 是 现在 已 经 大 量 生产 的 吉 比 特 以 太 网 硬件 ,而 光纤 通道 技术 要 求 特定 的 
价格 昂贵 的 设备 。 

作为 不 同类 型 的 存储 解决 方案 ,能 够 有 一 个 正确 的 方向 来 快速 做 出 存储 解决 方案 十 分 
必要 。 可 以 做 出 一 个 可 以 进行 快速 比较 的 图 表 , 通 过 这 个 图 表 , 可 以 比较 不 同类 型 的 存储 解 
决 方案 的 优 缺 点 。 在 这 个 图 表 中 ,SAN 分 成 iSCSI 和 光纤 通道 两 种 类 型 ,以 帮助 用 户 区 分 
这 两 种 技术 的 不 同 。 如 表 1-1 所 示 。 


表 1-1 不 同 存储 形态 的 比较 
























































存储 形态 DAS NAS iSCSIIP SANs 光纤 通道 
价格 价格 较 低 | 价格 中 等 价格 中 等 到 较 高 价格 较 高 
可 扩展 性 非常 有 限 “| 依赖 于 解决 方案 “| 依赖 于 解决 方案 依赖 于 解决 方案 
可 管理 性 效率 较 低 “| 效率 较 低 非常 高 效 非常 高 效 
容错 性 较 好 较 好 很 好 很 好 
是 否 适合 文件 存储 是 是 是 是 
是 否 适合 数据 库存 储 | 是 否 通常 适合 是 
是 否 适合 网 页 服务 是 是 是 是 
是 否 适合 Exchange | 是 否 通常 适合 是 
安装 的 简易 性 简单 简单 有 一 定 的 困难 非常 困难 
灾难 恢复 的 能 力 没有 没有 很 多 很 多 
Windows、 Linux、 
操作 系统 的 支持 。 “| 全 部 N/A Se 人 Te 
赖 于 驱动 器 本 身 ) 
主要 提供 商 任何 服务 器 | IBM、 Dell、 HP、 | LeftHand、 EMC、HP、| IBM、EMC、HP、 
提供 商 Network Appliance | IBM.NetworkAppliance | Network Appliance 


计算 机 系统 中 普遍 存在 一 个 “二 八 " 定 律 , 这 个 定律 也 同样 在 数据 存储 系统 中 有 效 ,根据 
大 量 的 调查 数据 以 及 经 验 数据 表明 ,存储 设备 中 保存 的 数据 只 有 20% 左 右 是 被 用 户 经 常 读 
取 的 ,而 有 80% 左 右 的 数据 很 少 甚至 不 被 用 户 访问 。 这 意味 着 ,对 保存 在 存储 设备 中 的 数 
据 ,20% 的 数据 应 该 能 够 为 用 户 提供 及 时 的 访问 而 不 需要 提供 高 效 的 访问 效率 。 根 据 这 样 
的 特性 ,为 了 最 优化 使 用 存储 设备 ,对 不 同 级 别 的 数据 分 级 存储 ,这 就 是 数据 分 级 管理 
(Hierarchiacl Storage Management,HSMD 的 来 由 。 

备份 是 指 存储 设备 上 的 数据 定时 或 按 一 定 策略 复制 到 备份 介质 上 ,通常 的 备份 介质 是 
磁带 。 被 备份 的 数据 仍 热 保留 在 存储 设备 上 ,备份 的 主要 目的 是 为 了 防止 存储 设备 上 的 数 
据 被 误 删 除 或 者 意外 丢失 。 

归档 是 值 将 重要 的 数据 转移 至 某 种 介质 上 长 期 保存 ,通常 的 归档 介质 是 光盘 和 磁带 。 
归档 和 备份 最 主要 的 区 别 就 是 被 归档 的 数据 在 原 存 储 设备 上 是 不 被 保留 的 。 
14 
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迁移 是 指 将 存储 设备 上 的 数据 复制 到 二 级 存储 设备 上 ,在 原 存 储 设 备 上 保留 占 位 符 并 
释放 空间 。 迁 移 和 归档 一 样 ,都 可 以 释放 原 存储 设备 上 的 空间 。 归 档 和 迁移 的 区 别 是 ,迁移 
会 从 原 存储 设备 回迁 到 原 存 储 设 备 上 ,而 无 须 进 行人 工 干预 。 不 过 ,有 的 设备 的 数据 迁移 方 
式 需 要 在 访问 时 系统 直接 从 二 级 存储 设备 上 读 取 数据 ,而 不 会 将 其 回迁 。 

数据 分 级 存储 示意 图 如 图 1-12 所 示 。 
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(二 级 存储 ) 磁盘 阵列 (三 级 存储 ) 
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从 磁带 恢复 磁带 
图 1-12 多 级 存储 示意 图 





1.2.5 ”RAID 存储 技术 


传统 的 单 盘 容 量 和 人 性 能 提升 存在 瓶颈 ,独立 磁盘 元 余 阵 列 (Redundant Array of 
Independent Disks,RAID) 是 一 种 宛 余 磁 盘 阵 列 技术 ,该 技术 可 以 将 多 个 磁盘 组 合 为 一 个 多 
辑 磁盘 ,从 而 突破 单 盘 的 容量 限制 ,满足 大 数据 存储 空间 的 需求 。 同 时 RAID 技术 还 可 以 提 
高 磁盘 的 元 余 度 ,传统 机 械 磁盘 难免 会 遇 到 物理 故障 ,RAID 技术 有 效 地 解决 了 单 盘 故障 造 
成 数据 丢失 的 风险 。 

常见 的 RAID 级 别 有 RAIDO、RAID1、RAID3、RAID5 .RAID6 等 。 


1.2.6 存储 性 能 指标 


存储 系统 性 能 的 三 个 主要 衡量 指标 是 最 大 带宽 和 输入 /输出 速率 (IOPS) 以 及 SPC 测 
试 报 告 。 带 宽 通 常 也 被 称 为 数据 吞吐 量 ,通常 用 MB/s 表示 ,表明 最 大 持续 不 变 的 数据 速 
率 。 通 常 最 大 的 数据 速率 可 以 通过 读 或 写 操作 的 顺序 数据 流 检测 ,数据 块 的 大 小 为 64KB 
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或 更 大 。 输 入 /输出 速率 是 系统 每 秒 钟 能 够 完成 输入 /输出 (1/O) 的 最 大 值 。 最 大 输入 / 输 
出 速率 通常 也 是 通过 读 或 写 操作 的 顺序 数据 流 进 行 测量 ,数据 块 的 代销 为 单一 扇 区 的 大 小 
或 者 是 512 字 节 。 存 储 性 能 理事 会 (Storage Performance Council,SPC) 提 供 较 权威 的 存储 
性 能 基准 测试 ,包括 SPC 和 SPC-1 IOPS。 

IOPS(1/Os per second) 表 示 即 每 秒 输入 输出 次 数 , 指 的 是 系统 在 单位 时 间 内 能 处 理 的 
最 大 I/O 频 度 。 一 般 情 况 下 ,联机 事务 处 理 系 统 (On-line Transations Processing,OLTP) 
应 用 涉及 更 多 的 频繁 读 写 , 更 多 情况 下 应 考虑 IOPS 。 

IOPS 测试 结果 与 很 多 测试 参数 和 存储 系统 具体 配置 有 关 。IOPS 还 可 以 细 分 为 100% 
顺序 读 IOPS、100% 顺 序 写 IOPS、100% 随 时 读 IOPS、100% 随 机 写 IOPS 等 ,在 同等 情况 下 
这 四 种 IOPS 中 ,100% 顺 序 读 的 IOPS 最 高 。 

厂商 公布 的 经 常 是 IOPS 很 高 的 100% 顺 序 读 的 指标 ,但 多 数 用 户 实际 实用 的 环境 既 有 
顺序 读 写 ,也 有 随机 读 写 操作 。 传 输 的 数据 块 大 小 也 不 相同 ,所 以 产品 在 用 户 实际 使 用 环境 
中 的 性 能 通常 会 比 厂商 标 称 的 指标 差 。 

SPC 的 SPC-1 基准 测试 主要 是 针对 随机 1/O 应 用 环境 的 ,SPC-2 基准 测试 主要 是 针对 
顺序 WO 应 用 环境 的 。SPC-2 基准 比 SPC-1 基准 具有 更 高 的 权威 性 和 可 比 性 。 

SPC-1 基准 测试 虽然 规定 了 严格 的 读 写 顺序 和 随机 读 写 比 例 和 数据 块 大 小 以 及 在 何 种 
磁盘 负载 情况 下 取 值 ,但 没有 规定 被 测 存储 产品 使 用 多 少 个 磁盘 ,也 没有 规定 被 测 存储 产品 
设置 何 种 RAID 级 别 。 存 储 性 能 理事 会 (SPC) 要 求 测试 报告 必须 详细 地 列 出 被 测 存储 系统 
的 配置 和 价格 。 

SPC 网 站 (http://www. storageperformance. org) 上 公布 了 大 多 数 存储 厂商 的 存储 产 
品 的 SPC-1 基准 测试 报告 ,通过 查询 这 些 报告 中 的 SPC-1 IOPS 值 和 所 描述 的 被 测 存储 产 
品 的 磁盘 总 数 ,用 户 就 可 以 根据 下 列 公 式 快 速 估算 所 采购 配置 的 某 一 存储 实际 性 能 为 

实际 SPC-1 IOPS= (实际 采购 存储 系统 的 磁盘 数 二 测试 报告 中 被 测 系统 的 磁盘 数 ) 

测试 报告 的 SPC-1 IOPS 

可 靠 性 为 : 

MTT Farray 一 MTT Fdisk 二 实际 采购 存储 系统 的 磁盘 数 


1.3 数据 存储 技术 


1.3.1 备份 技术 背景 


随 着 数据 存储 技术 在 商业 系统 中 的 普及 以 及 大 量 应 用 系统 的 上 线 ,企业 信 息 安全 的 重 
要 性 日 益 凸 显 。 但 作为 信息 安全 的 一 个 重要 内 容 , 数 据 备 份 的 重要 性 往往 被 忽视 。 只 要 
发 生 数 据 传 输 、 数 据 存 储 和 数据 交换 ,就 有 可 能 产生 数据 故障 ,而 一 些 自然 灾害 和 人 为 的 
错误 也 在 威胁 着 信息 的 安全 ,这 些 情况 都 可 能 造成 数据 丢失 、 数 据 被 算 改 甚至 系统 瘫痪 
等 后 果 ,而 作为 系统 管理 员 则 必须 要 维护 数据 的 完整 性 和 准确 性 ,以 保证 系统 和 业务 的 
持续 运行 。 

在 信息 系统 中 ,备份 是 指 为 原始 数据 制作 一 个 或 者 多 个 额外 的 拷贝 并 将 其 存放 在 其 他 
存储 介质 中 ,以 便 在 原始 数据 受到 破坏 或 者 特定 情况 下 加 以 重新 利用 的 一 个 过 程 。 数 据 备 
16 
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份 的 目的 主要 有 两 个 : 其 一 是 在 灾难 发 生 后 用 于 恢复 原始 数据 状态 ,这 也 被 称 为 灾难 恢复 ; 
其 二 是 用 于 数据 的 恢复 , 即 当 原始 数据 文件 在 被 意外 删除 或 损坏 的 情况 下 恢复 原始 数据 。 
由 此 可 见 , 数 据 备份 的 根本 目的 不 在 于 数据 的 重新 利用 。 也 就 是 说 ,备份 工作 的 核心 是 备份 
恢复 ,一 个 无 法 恢复 的 备份 ,对 任何 系统 来 说 都 是 毫 无 意义 的 。 能 够 安全 .方便 又 高 效 地 恢 
复数 据 , 才 是 备份 系统 的 真正 意义 。 对 一 个 完整 的 IT 系统 而 言 , 备 份 工作 是 其 中 必 不 可 少 
的 组 成 部 分 ,其 意义 不 仅 在 于 防范 意外 事件 的 破坏 ,同时 也 是 归档 及 保存 历史 数据 的 最 佳 
方式 。 


1.3.2 数据 备份 原则 


1. 稳定 性 

备份 产品 的 主要 作用 是 为 系统 提供 一 个 数据 保护 的 方法 ,所 以 备份 系统 的 稳定 性 和 可 
靠 性 就 是 非常 重要 的 一 个 因素 。 备 份 软件 通常 被 要 求 要 与 操作 系统 100% 的 兼容 ,并 且 当 
事故 发 生 时 能 够 快速 有 效 地 恢复 数据 。 

2. 全 面 性 

在 复杂 的 应 用 环境 中 ,应 用 系统 可 能 采用 了 多 种 操作 平台 ,包括 UNIX、 Windows、 
Linux 等 ,并 安装 了 各 种 应 用 系统 ,如 ERP 数据 库 等 。 而 备份 系统 要 求 能 够 支持 各 种 操作 
系统 .数据库 和 典型 应 用 ,以 满足 复杂 的 实际 应 用 需求 。 

3. 自动 化 

很 多 系统 由 于 工作 性 质 的 原因 ,对 何 时 备份 .用 多 长 时 间 备 份 都 有 一 定 的 限制 。 在 非 工 
作 时 间 且 系统 负荷 较 轻 时 较 适 合 备份 。 因 此 ,备份 方案 应 能 提供 定时 的 自动 备份 ,并 利用 自 
动 磁带 库 等 技术 自动 更 换 磁带 。 在 系统 备份 过 程 中 还 要 有 日 志 记录 功能 ,并 在 出 现 异 常情 
况 时 自动 报警 。 

4. 高 性 能 

随 着 业务 的 不 断 发 展 ,数据 越 来 越 多 ,更 新 越 来 越 快 ,在 休息 时 间 来 不 及 备份 如 此 多 的 
内 容 , 所 以 需要 考虑 提高 数据 备份 的 速度 ,并 采用 多 种 技术 加 快 对 数据 的 备份 ,同时 充分 利 
用 通道 的 带宽 和 性 能 。 

5. 操作 简单 

数据 备份 到 磁盘 (Data to Disk,D2D) 方 式 正 逐 渐 被 越 来 越 多 的 用 户 采用 ,其 基本 数据 
流程 为 : 备份 服务 器 按照 既定 策略 ,在 相应 时 间 内 发 出 控制 命令 ,将 生产 服务 器 主 存储 磁盘 
的 数据 通过 LAN 或 SAN 备份 到 相应 的 磁盘 设备 中 ,通常 可 用 于 数据 的 分 级 存储 。 

数据 备份 到 磁盘 后 再 备份 到 磁带 (Data to Disk to Tape, D2D2T) 方 式 结合 了 传统 磁带 
的 离线 管理 和 磁盘 高 速 备份 恢复 的 特性 ,基本 数据 流程 为 : 备份 服务 器 按照 既定 策略 ,在 相 
应 时 间 内 发 出 控制 命令 ,将 生产 服务 器 主 盘 的 数据 通过 LAN 或 SAN 备份 到 相应 的 次 级 磁 
盘存 储 设备 中 (如 : 虚拟 磁盘 库 ) ,再 由 相应 生产 主机 备份 服务 器 在 既定 时 间 内 自动 将 保存 
在 次 级 磁盘 存储 设备 中 的 数据 复制 到 磁带 库 中 ,这 样 可 以 大 大 缩短 对 备份 窗口 的 需求 ,并 能 
够 有 效 减 少 对 应 用 系统 资源 的 占用 ,使 得 备份 效率 得 到 极 大 的 提升 。 


1.3.3 数据 灾难 基础 


已 出 台 的 《重要 信息 系统 灾难 恢复 规则 指南 ?中 有 明确 定义 :“ 灾 难 是 由 于 人 为 或 者 自 
由 
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然 的 原因 ,造成 信息 系统 运行 严重 故障 或 瘫痪 ,使 信息 系统 支持 的 业务 功能 停顿 或 服务 水 平 
不 可 接受 ,导致 信息 系统 需要 切换 到 备用 场地 运行 ”由 此 可 见 , 灾 难 不 仅 指 客观 的 原因 ,也 
包括 人 为 的 因素 。 在 信息 系统 中 ,一 切 能 导致 系统 非 正常 停机 的 时 间 都 可 以 称 为 灾难 。 大 
致 可 以 分 成 以 下 四 个 类 型 。 

(1) 自然 灾害 : 包括 地 震 、 洪 水 、 雷 电 等 ,这 种 灾难 破坏 性 大 ,影响 面 广 。 

(2) 社会 灾难 : 包括 战争 .火灾 盗窃 等 。 

(3) IT 系统 灾难 : 包括 主机 的 CPU、 硬 盘 等 损坏 ,电源 中 断 以 及 网 络 故障 等 ,这 类 灾难 
影响 范围 比较 小 ,破坏 性 也 小 。 

(4) 人 为 灾难 : 包括 黑客 攻击 病毒 侵入 、 误 操作 、 蓄 意 破 坏 等 。 


1.3.4 数据 容 灾 与 备份 


容 灾 ,就 是 当 灾难 发 生 时 ,保证 生产 系统 的 数据 尽 可 能 少 地 丢失 ,并 保持 生产 系统 的 业 
务 不 间断 地 运行 。 

备份 是 容 灾 的 基础 ,是 指 为 了 防止 系统 遭受 人 为 的 误 操作 或 者 其 他 故障 而 导致 数据 丢 
失 ,而 采取 的 将 全 部 或 者 部 分 数据 从 应 用 主机 的 存储 设备 复制 到 其 他 存储 设备 的 过 程 。 我 
们 把 这 种 数据 备份 方式 称 为 冷 备份 。 

数据 备份 的 核心 是 恢复 ,采取 的 措施 主要 有 双 机 热 备 ,磁盘 镜像 或 容错 、 备 份 介质 异地 
存放 ,关键 部 分 元 余 等 多 种 灾难 预防 措施 。 这 些 措 施 能 够 在 计算 机 发 生 单 点 故障 后 进行 系 
统 恢复 ,对 于 一 些 毁 灭 性 的 灾难 不 具有 恢复 能 力 。 

数据 容 灾 是 指 能 够 在 灾难 发 生 时 全 面 、 及 时 地 恢复 整个 系统 ,避免 传统 冷 备 份 的 不 足 ， 
例如 国际 标准 SHARE 78 定义 的 容 灾 系统 有 7 个 层次 : 从 最 简单 的 仅 在 本 地 进行 磁带 备 
份 ,到 将 备份 的 磁带 存储 在 异地 ,再 到 建立 应 用 系统 实施 切换 到 异地 备份 系统 ,以 及 容 灾 级 
别 所 对 应 的 系统 恢复 时 间 也 从 几 天 到 小 时 级 ,分 钟 级 、 秒 级 或 零 数 据 丢 失 等 。 

无 论 采 取 哪 种 容 灾 方案 ,基本 手段 都 是 数据 备份 ,因为 任何 容 灾 方案 都 不 可 能 脱离 备份 
的 数据 而 实现 。 衡 量 容 灾 系统 的 指标 主要 有 两 个 : RPO(Recovery Point Object) 和 RTO 
(Recovery Time Object) ,其 中 RPO 代表 了 当 灾 难 发 生 时 丢失 的 数据 量 , 而 RTP 则 代表 了 
恢复 系统 所 需要 的 时 间 。 

在 建立 容 灾 系 统 之 前 ,首先 要 进行 全 面 的 需求 分 析 , 其 中 包括 业务 系统 风险 分 析 、 容 灾 
系统 对 业务 系统 的 影响 分 析 和 成 本 分 析 。 

(1) 风险 分 析 : 风险 分 析 是 检查 哪些 是 可 能 造成 数据 损失 或 者 系统 瘫痪 的 外 在 和 内 在 
因素 。 既 然 是 容 灾 ,必须 充分 考虑 业务 系统 所 在 的 自然 环境 .针对 可 能 发 生 的 灾难 ,准备 相 
应 的 容 灾 对 策 。 

(2) 容 灾 系统 对 业务 系统 的 影响 分 析 : 容 灾 系 统 肯定 对 业务 系统 的 性 能 有 一 定 影响 ， 
因此 ,对 于 那些 高 负荷 运行 的 业务 系统 ,必须 认真 计算 。 

(3) 成 本 分 析 : 建立 容 灾 系 统 , 除 了 需要 购买 必要 的 设备 外 ,还 要 考虑 系统 维护 管理 成 
本 和 使 用 通信 线路 的 费用 。 这 些 容 灾 成 本 也 是 构建 容 灾 系统 所 必须 考虑 的 因素 。 
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1.3.5 数据 容 灾 指标 


1. RTO 

RTO(Recovery Time Objectives ,恢复 时 间 目 标 ) 是 能 够 加 快 恢复 数据 存储 和 压缩 正常 
运行 的 时 间 。 一 个 5 分钟 的 RTO 是 数据 保护 的 决定 性 因素 ,而 RTO 决定 数据 恢复 的 时 
间 。 一 个 5 分 钟 的 RTO 表明 丢失 的 数据 必须 在 5 分 钟 内 恢复 出 来 并 且 能 够 正常 使 用 。 更 
进一步 说 ,可 以 没有 停顿 地 恢复 数据 ,并 且 能 够 重新 正常 使 用 机 器 。RTO 需要 考虑 的 一 个 
因素 是 能 够 在 一 段 特 定 的 时 间 内 恢复 数据 ,同时 还 能 恢复 服务 器 操作 系统 以 及 安装 相应 的 
软件 来 使 用 相应 的 数据 。 例 如 ,如 果 只 是 需要 恢复 服务 器 上 的 数据 文件 ,那么 同时 还 需要 在 
服务 器 上 恢复 相应 的 操作 系统 和 设备 或 安装 另外 的 数据 恢复 产品 。 因 此 ,RTO 需要 考虑 的 
因素 有 备份 操作 的 完整 性 ,数据 的 恢复 .数据 的 重新 存储 和 重启 机 器 所 需要 的 设备 等 。 

RTO 示意 图 如 图 1-13 所 示 。 

关键 业务 决定 了 从 中 断 点 恢复 到 其 最 低 业务 持续 目标 (MBCO) 所 能 承受 的 最 大 时 间 ， 
从 而 使 中 断 对 业务 所 带 来 的 冲击 最 小 化 。 


中 断 点 。 ”关键 业务 功能 的 恢复 时 间 敏 感 的 系统 以 最 


新 的 正确 数据 运行 
~ 时间 


-一 恢复 时 间 目 标 (RTO) -一 一 一 








1-13 RTO 示意 图 


2. RPO 

RPO(Recovery Point Objectives ,恢复 点 目标 ) 是 实时 地 复制 业务 信息 中 的 每 一 个 数据 
恢复 事务 。 短 时 间 的 RPO 能 够 更 少 地 丢失 数据 。 例 如 ,一 个 5 分 钟 的 RPO 表明 必须 在 
5 分 钟 内 恢复 数据 ,而 一 小 时 的 RPO 表明 这 种 数据 恢复 在 一 小 时 内 可 能 已 经 丢失 了 要 备份 
的 数据 。 相 反 地 ,一 个 0 分钟 的 RPO 表明 没有 数据 可 以 丢失 ,因为 数据 已 经 及 时 地 备份 或 
者 记录 下 来 ,从 而 阻止 任何 数据 的 丢失 ,RPO 要 考虑 的 另外 一 个 层面 是 数据 的 保护 要 完整 
和 全 面 到 什么 程度 ,例如 ,RPO 如 果 每 隔 24 小 时 备份 一 次 , 则 意味 着 这 24 个 小 时 内 数据 可 
能 会 丢失 ,完全 和 全 面 的 数据 保护 注重 的 是 数据 是 否 完整 地 被 保护 起 来 或 者 只 有 部 分 的 文 
件 和 数据 被 保护 起 来 。 再 举 一 例 ,打开 的 文件 可 能 无 法 被 完全 备份 ,除非 缓存 中 的 数据 存储 
到 了 磁盘 里 。 另 外 还 要 考虑 的 因素 是 索要 备份 的 文件 是 否 是 某 个 特殊 的 目录 或 者 文件 共享 
中 的 某 种 特定 文件 ,以 及 数据 是 否 完全 备份 下 来 了 。 小 的 RPO 意味 着 要 付出 更 多 的 费用 以 
及 更 少 的 数据 丢失 量 ,应 用 时 必须 做 一 个 权衡 。PRO 示意 图 如 图 1-14 所 示 。 


1.3.6 数据 容 灾 级 别 


根据 SHARE 78 国际 组 织 提 出 的 标准 , 容 难 恢复 解决 方案 可 分 为 七 级 , 即 从 低 到 高 有 
七 种 不 同 层次 的 灾难 恢复 解决 方案 。 可 以 根据 企业 数据 的 重要 性 以 及 业务 所 需要 恢复 的 速 
度 和 程度 来 设计 、 选 择 并 实现 业务 的 灾难 恢复 计划 ,如 图 1-15 所 示 。 

19 


数据 安全 与 灾 备 管理 





数据 处 于 有 效 状态 。 数据 丢失 阶段 灾难 发 生 


的 最 后 时 刻 Se 
ED > 
恢复 点 


时 间 To 时 间 Ti 
图 1-14 PRO 示意 图 





















Tier7 一 一 0 数据 丢失 。 解决 方案 应 与 具体 业务 相 结合 ,实现 自主 管理 
Tier6 一 一 有 少量 或 无 数据 丢失 

Tier5 一 一 交易 的 完整 性 

Tier4 一 一 用 快照 技术 复制 数据 

Tier3 一 一 电子 链 路 远程 数据 的 备份 

Tier2 一 一 有 数据 备份 和 备用 系统 


Tierl 一 一 有 数据 备份 而 无 备用 系统 


恢复 时 间 指标 (RPO) Tier0 一 一 无 异地 备份 数据 


1-15 七 级 容 灾 级 别 示 意图 








(1) 1 级: 本 地 保存 

Tierl 表示 没有 任何 异地 备份 或 应 急 计 划 。 即 数据 仅 在 本 地 进行 备份 恢复 ,没有 数据 
送 往 异地 。 事 实 上 这 一 层 并 不 具备 真正 灾难 恢复 的 能 力 。 

(2) 2 级 : 异地 保存 

Tier2 的 灾难 恢复 方案 必须 设计 一 个 应 急 方 案 , 能 够 备份 所 需要 的 信息 并 将 它 存 储 在 
异地 。PTAM 指 将 本 地 备份 的 数据 用 交通 工具 送 到 远方 。 这 种 方案 相对 来 说 成 本 较 低 ,但 
难于 管理 。 

(3) 3 级: 网络 传输 

Tier3 相当 于 Tierl 再 加 上 热 备份 中 心 能 力 的 进一步 的 灾难 恢复 。 热 备份 中 心 拥有 足 
够 的 硬件 和 网 络 设备 区 来 支持 关键 应 用 。 其 相对 于 Tierl 明显 降低 了 容 灾 恢 复 时 间 。 

(4) 4 级 : 自动 备份 

Tier4 是 在 Tier2 的 基础 上 用 电子 链 路 取代 了 数据 传送 的 更 进一步 的 灾难 恢复 方式 。 
由 于 热 备份 中 心 要 保持 持续 运行 ,增加 了 成 本 ,但 提高 了 灾难 恢复 的 速度 。 

(5) 5 级 : 采用 中 间 件 

Tier5 指 两 个 中 心 同 时 处 于 活动 状态 并 互相 备份 ,在 这 种 情况 下 ,工作 负载 可 能 在 两 个 
中 心 之 间 分 享 。 在 灾难 发 生 时 ,关键 应 用 的 恢复 也 可 以 降低 到 小 时 级 或 分 钟 级 。 

(6) 6 级 : 数据 级 容 灾 

Tier6 则 提供 了 更 好 的 数据 完整 性 和 一 致 性 。 也 就 是 说 , Tier5 需要 两 中 心 与 中 心 
的 数据 都 被 同时 更 新 。 在 灾难 发 生 时 , 仅 是 传送 中 的 数据 被 丢失 ,恢复 时 间 被 降低 到 
分 钟 级 。 
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(7) 7 级 : 应 用 级 容 灾 

Tier7 可 以 实现 无 数据 丢失 ,被 认为 是 灾难 恢复 的 最 高 级 别 , 在 本 地 和 远程 的 所 有 数据 
被 更 新 的 同时 ,利用 了 双重 在 线 存 储 和 完全 的 网 络 切 换 能 力 。 当 发 生 灾难 时 ,能 够 提供 跨 站 
点 动态 负载 平衡 和 自动 系统 故障 切换 功能 。 





1.4 数据 存储 与 应 用 


1.4.1 数据 存储 与 数据 访问 


随 着 计算 机 在 人 们 生活 、 工 作 中 的 普及 ,计算 机 存储 系统 作为 计算 机 系统 的 组 件 也 越 
来 越 受 到 重视 。 存 储 系统 的 发 展 随 着 计算 机 技术 的 发 展 而 进入 了 存储 网 络 阶段 。 从 而 向 人 
们 提供 了 更 大 的 存储 空间 和 更 加 便捷 的 存储 访问 能 力 。 

互联 网 的 范围 已 经 从 人 们 生活 工作、 旅游 度假 等 延伸 到 各 个 方面 :如 此 庞大 的 数据 信 
息 保存 在 各 个 巨大 的 在 线 信息 库 中 ,从 而 实现 对 各 种 各 样 信息 的 访问 。 实 际 上 ,所 有 对 数据 
的 请 求 和 访问 ,都 是 依赖 于 世界 各 地 各 种 类 型 的 服务 器 的 。 服 务 器 对 数据 进行 保存 ,并 在 人 
们 需要 这 些 数据 时 能 提供 准确 有 效 的 访问 。 随 着 计算 机 的 飞速 发 展 , 人 们 对 数据 信息 的 存 
取 方 式 和 可 达 性 提出 了 更 高 的 要 求 , 而 网 络 的 出 现 为 数据 存 取 和 访问 方式 的 实现 提供 了 强 
大 的 动力 ,使 得 人 们 无 论 身 处 何 处 ,都 能 够 方便 \ 快 捷 地 对 数据 进行 访问 。 

数据 量 的 不 断 增长 和 人 们 对 数据 访问 性 能 要 求 的 不 断 提升 ,推动 了 计算 机 存储 技术 的 
发 展 ,而 网 络 的 出 现 和 大 规模 应 用 级 的 存储 技术 变 得 日 益 普及 。 正 因 如 此 ,人 们 现在 所 面临 
的 问题 已 经 由 寻找 足够 的 存储 空间 去 保存 数据 转变 为 保存 什么 样 的 数据 ,如 何 保存 这 些 数 
据 以 及 将 这 些 数据 放 在 哪里 的 问题 。 一 方面 ,人 们 所 面 对 的 数据 量 非常 庞大 ; 另 一 方面 ,人 
们 需要 在 如 此 庞大 的 数据 中 能 方便 地 访问 所 需要 的 数据 ,所 以 ,网 络 技术 和 存储 技术 的 融合 
是 历史 的 必然 。 长 期 以 来 ,爆炸 式 增 长 的 数据 的 存储 和 大 量 的 数据 访问 需求 的 矛盾 一 直 是 
摆 在 存储 技术 人 员 和 用 户 面前 的 一 大 难题 。 随 着 个 人 存储 设备 和 企业 数据 中 心 对 存储 容量 
的 要 求 和 数据 访问 能 力 要 求 的 不 断 提升 ,这 个 问题 也 越 来 越 突出 。 


1.4.2 存储 网 络 对 应 用 系统 的 影响 


应 用 系统 中 的 非 线 性 的 性 能 扩展 主要 受到 两 方面 因素 的 影响 。 首 先是 在 线 存储 容量 是 
否 充 足 、 可 用 ,以 满足 应 用 系统 数据 的 需求 ,并 且 应 该 有 足够 的 临时 存储 资源 ,包括 内 存 和 高 
速 缓存 ,以 满足 应 用 系统 数据 的 要 求 ,其 次 是 与 应 用 系统 进行 交互 操作 从 而 访问 在 线 存储 设 
备 以 及 应 用 数据 或 者 是 向 存储 设备 中 写 人 新 数据 的 用 户 量 , 应 用 系统 在 处 理 用 户 数据 访问 
的 时 候 应 该 能 够 利用 临时 在 线 存储 资源 以 保证 能 够 以 接近 实时 的 方式 处 理 预 定数 量 的 
事务。 

在 线 存储 的 可 用 性 问题 中 ,如 果 用 户 将 要 与 应 用 系统 进行 交互 操作 ,那么 与 该 交互 操作 
相关 的 信息 就 应 该 能 够 实时 地 访问 ,而 在 线 存 储 所 提供 的 就 是 去 满足 这 种 要 求 的 机 制 ,并 
且 ,在 线 存储 容量 应 该 确保 有 足够 的 空间 以 保存 当前 用 户 的 数据 和 应 用 操作 所 需 的 数据 , 同 
时 还 应 当 有 足够 的 空闲 容量 ,以 便 在 尽 可 能 不 影响 应 用 系统 操作 的 情况 下 支持 用 户 数据 的 
拓展 。 
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访问 应 用 系统 的 用 户 数 量 对 于 应 用 系统 性 能 拓展 的 影响 ,也 可 以 被 理解 为 规划 的 数据 
访问 量 。 因 此 ,配置 方案 中 可 以 设 定 在 可 接受 的 响应 时 间 窗 口内 所 能 够 服务 的 最 大 用 户 数 
量 。 尽 管 这 种 优化 配置 还 需要 服务 器 运算 能 力 和 充足 的 网 络 资源 的 支持 。 当 时 ,从 根本 上 
来 说 ,应 用 系统 所 能 够 承受 的 用 户 失误 需求 取决 于 存储 基础 设施 。 

C/S 存储 组 网 模式 如 图 1-16 所 示 。 





4 光纤 交换 机 “yy 
Ey SNS2248 -3 








， ps ; 

站 

Fes | 二 | 

| 1 | ! | 1GB NAS 网 络 | 
1 1 

| | ! 站 | 1 一 10GB NAS 网 络 | 

外 

| | | | ! 8GB SAN 网 络 | 

1 | 

| 主 存储 “| | | 

| S5800T | 1 S5600T | 

蕊 一 一 一 一 一 一 一 d= J 


图 1-16 C/S 存储 组 网 模式 


现代 存储 配置 方式 体现 的 是 分 布 式 计算 形式 下 的 客户 机 /服务 器 模式 的 特征 ,客户 机 / 
服务 器 存储 模式 为 服务 器 提供 了 数据 存储 的 能 力 ,也 为 客户 端 提供 了 数据 存储 的 空间 。 

随 着 在 线 存储 的 增 大 ,服务 器 的 性 能 也 越 来 越 强 大 ,并 配置 了 更 多 的 RAM。 由 于 客户 
端 用 户 需求 的 增长 速度 高 于 服务 器 能 力 的 提高 速度 ,因而 服务 器 很 快 就 会 达到 其 性 能 的 极 
限 。 因 为 服务 器 的 性 能 限制 ,最 优化 的 存储 配置 几乎 是 不 可 能 实现 的 。 

除了 处 理 来 自 客户 端的 访问 请 求 以 外 ,为 了 实现 数据 的 查找 ,服务 器 的 信息 共享 也 提出 
了 大 量 的 存储 容量 需求 ,因此 需要 在 网 络 中 设置 多 台 服务 器 以 满足 不 断 增长 的 数据 信息 的 
存储 需求 ,由 此 导致 了 服务 器 的 专门 化 演变 。 网 络 服务 器 专门 负责 处 理 与 客户 机 登录 网 络 
相关 的 各 种 工作 ,保存 网 络 参数 信息 ,并 管理 网 络 资源 ,而 客户 端 资料 以 及 共享 的 信息 则 保 
存在 各 自 的 文件 服务 器 上 。 对 在 线 存储 空间 的 需求 以 及 客户 端的 多 重 访问 ,要 求 网 络 中 部 
署 多 态 服务 器 以 共同 承担 负载 。 同 时 ,数据 库 的 规模 也 越 来 越 大 ,这 就 要 求 在 网 络 中 部 署 数 
据 库 服务 器 。 数 据 库 服务 器 的 出 现 ,为 客户 机 /服务 器 存储 模式 起 到 了 重要 的 推进 作用 ,并 
促使 其 成 为 一 种 新 的 .拓展 的 存储 解决 方案 。 

在 传统 的 C/S 模式 中 ,存在 着 一 些 难以 克服 的 局 限 。 随 着 数据 和 在 线 存 储 要 求 的 不 断 
增加 ,系统 的 容量 和 功能 都 必须 不 断 地 提升 以 应 对 所 面临 的 挑战 。 尽 管 服务 器 中 各 种 临时 
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需求 量 总 是 在 无 限 攀 升 ,而 服务 器 的 性 能 却 存在 提升 的 极限 。 并 且 , 在 C/S 体系 架构 中 都 
有 可 能 会 收 到 用 户 的 访问 ,在 各 个 应 用 数据 日 益 壮 大 的 今天 , 越 来 越 多 的 用 户 通 过 互联 网 与 
应 用 系统 相连 接 并 且 每 个 人 都 需要 存储 越 来 越 多 的 数据 ,这 种 在 线 工 作 环境 所 带 来 的 数据 
传输 需求 是 一 种 极 大 的 挑战 。 

数据 流量 所 带 来 的 挑战 是 导致 存储 技术 变革 的 直接 因素 之 一 。 如 今 ,数据 存储 以 及 数 
据 访问 所 面临 的 问题 也 已 经 促使 存储 技术 突破 ,激发 出 创造 性 的 解决 方案 来 应 对 C/S 存储 
模式 的 局 限 性 。 存 储 网 络 的 出 现 改变 了 传统 的 存储 方式 ,将 存储 “直接 ”与 服务 器 相连 变 成 
与 “网络” 相连 。 这 种 设计 方式 直接 将 存储 设备 接 在 网 络 上 ,将 存储 连接 从 服务 器 分 离 出 来 ， 
从 而 动态 地 改变 了 服务 器 的 I/O 能 力 , 为 彻底 解决 应 用 系统 性 能 扩展 问题 奠定 基础 。 同 
时 ,在 这 一 变革 的 基础 上 ,人 们 将 能 够 构建 扩展 性 极 高 的 存储 基础 设施 ,用 以 处 理 大 规模 的 
数据 访问 任务 ,在 服务 器 之 间 共 享 数 据 , 并 提高 大 规模 在 线 存 储 来 提高 管理 效率 。 

存储 网 络 建立 了 独立 的 存储 架构 ,增强 了 现 有 C/S 模式 的 计算 拓扑 结构 ,并 从 整体 上 
改变 了 C/S 模型 。 存 储 网 络 允 许 存储 设备 直接 连接 到 现 有 的 业务 网 络 上 (比如 NAS) ,也 可 
以 通过 专门 存储 网 络 进行 连接 (比如 SAN) ,存储 网 络 的 应 用 为 传统 的 存储 配置 方案 带 来 了 
两 个 重要 的 变化 。 

(1) 存储 网 络 在 存储 设备 .服务 器 以 及 客户 端 之 间 建 立 了 更 多 的 直接 访问 路 径 ,通过 宛 
余 路 径 以 及 负载 均衡 的 应 用 ,为 应 用 系统 提供 更 加 高 效 .可 靠 的 数据 存储 访问 环境 。 

(2) 存储 网 络 的 应 用 可 以 为 商业 应 用 系统 提供 更 高 的 访问 数据 效率 ,将 服务 器 的 性 能 
释放 出 来 ,使 服务 器 能 够 更 专注 于 用 户 事务 的 处 理 , 提 升 了 服务 器 的 服务 性 能 。 

存储 网 络 根据 应 用 环境 的 不 同 而 发 展 出 了 网 络 连接 存储 (Network Attached Storage， 
NAS) 和 存储 区 域 网 络 (Storage Area Network,SAN)。NAS 可 以 将 存储 设备 直接 连接 在 
基于 以 太 网 标准 的 现 有 业务 网 络 中 ,并 可 以 使 用 标准 的 TCP/IP 网 络 协议 与 服务 器 或 者 是 
客户 机 进行 通信 。 而 SAN 则 专门 为 存储 建立 一 个 基于 光纤 通道 协议 或 者 IP 协议 的 独立 网 
络 ,以 保证 服务 器 系统 能 够 与 存储 系统 间 独 享 高 带宽 。 


1.4.3 存储 网 络 对 应 用 系统 的 意义 


存储 网 络 的 出 现 ,使 服务 器 能 同时 连接 和 利用 更 多 的 存储 设备 ,从 而 消除 因 对 单个 服务 
器 的 大 量 访问 而 产生 的 性 能 瓶颈 ,同时 也 不 需要 为 每 台 服 务 器 维护 一 个 数据 副本 , 且 因 其 所 
带 来 的 复杂 性 和 开销 都 将 不 复 存 在 。 从 应 用 系统 的 角度 看 ,这 一 转变 使 得 应 用 数据 可 以 分 
布 在 所 有 的 服务 器 上 ,在 保持 对 相关 数据 的 集中 访问 的 前 提 下 ,避免 了 应 用 中 单 点 故障 的 
存在 。 

存储 网 络 的 部 署 所 带 来 的 带宽 提升 为 大 量 数据 的 传输 提供 明显 优势 ,通过 FC 建立 的 
SAN 或 者 是 通过 以 太 网 络 架构 的 NAS 系统 都 能 对 日 益 增 长 的 应 用 需求 提供 支持 ,并 为 维 
护 稳定 .可 靠 的 响应 时 间 黄 定 基础 。 

对 于 平台 环境 的 维护 需要 有 多 重 维护 /支持 应 用 系统 的 配合 ,而 在 SAN 环境 中 ,各 种 
设备 之 间 得 以 连接 从 而 具备 相互 通信 的 能 力 .这 样 的 能 力 使 得 许多 基于 服务 器 的 、 以 数据 为 
中 心 所 维护 /支持 的 应 用 系统 能 够 得 到 优化 。 支 撑 应 用 系统 可 以 从 应 用 服务 器 上 分 离 出 来 ， 
这 意味 着 数据 可 以 在 存储 网 络 设备 上 直接 进行 复制 。 以 往 的 许多 应 用 系统 一 直 被 这 样 的 维 
护 工作 所 困扰 ,因为 数据 在 复制 过 程 中 是 不 可 用 的 。 但 是 新 的 操作 方式 (存储 网 络 中 ,数据 
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直接 在 存储 设备 之 间 复 制 ) 可 以 大 幅度 地 缩短 数据 不 可 用 时 间 , 从 而 提高 整个 应 用 系统 的 可 
用 性 。 


任务 拓展 


1. 查阅 最 近 几 年 相关 数据 灾难 事件 及 影响 。 
2. 数据 容 灾 级 别 及 相关 指标 。 
3. 了 解数 据 存储 技术 对 目前 应 用 系统 的 影响 。 
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(Gy 任务 目标 

。 了解 IT 基础 设施 数据 中 心 ; 

。 了 解数 据 存储 的 应 用 环境 ; 
了 解 存储 硬盘 的 物理 结构 ; 

。 了解 存储 介质 的 实现 原理 

。 了 解 物理 主机 的 应 用 环境 。 
(©O 项 目 背 景 

21 世纪 是 数字 化 和 多 媒体 化 的 信息 时 代 , 现 代 信 息 社 会 和 经 济 的 发 展 , 所 产生 的 信息 
量 每 年 以 指数 方式 上 升 ,出现 了 信息 爆炸 的 态势 。 应 用 数据 每 天 以 成 倍 的 速度 增长 。 据 
IDC 监测 ,全 球 在 2010 年 已 经 进入 数据 量 的 ZB( 相 当 于 1 万 亿 GB) 时 代 , 预 计 到 2020 年 ， 
全 球 将 总 共 拥 有 35ZB 的 数据 量 , 相 对 于 2010 年 ,数据 量 将 增长 近 30 倍 。 信 息 存储 技术 作 
为 信息 技术 的 核心 之 一 ,一 直 伴随 并 推动 着 IT 业 各 方面 技术 的 协同 发 展 , 是 当今 IT 领域 
中 少数 发 展 最 为 迅速 的 热点 之 一 。 如 何 安全 、 合 理 地 保存 这 些 新 增 数 据 成 为 信息 技术 发 展 
的 必 经 之 路 。 


【学 项 目 描述 

随 着 “互联 网 十 ”大 数据 时 代 的 到 来 , 聚 比特 科技 有 限 公司 随 着 业务 和 人 员 的 扩大 ,已 
由 一 家 单一 电子 商务 逐步 发 展 成 为 致力 于 推动 国民 经 济 及 社会 可 持续 发 展 的 综合 IT 运营 
服务 机 构 ,逐步 实现 “资源 全 球 化 、 经 营 本土 化 ”的 战略 发 展 阶段 。 

以 此 建立 一 套 完善 的 网 络 基础 平台 作为 信息 化 支持 中 心 .应 用 推广 中 心 和 公司 技术 管 
理 中心 ,进一步 适应 今后 业务 的 充分 扩展 ,以 保证 公司 业务 的 顺利 开展 ,创建 良好 的 办 公 自 
动 化 与 业务 系统 数据 中 心 。 


(项 分 析 

聚 比 特 科 技 有 限 公 司 数据 中 心机 房 在 符合 国家 相关 规范 (例如 防火 消防 规范 等 ) 前 提 
下 ,以 布局 的 合理 、 可 靠 、 安 全 和 工作 流程 每 适 性 为 布局 设计 原则 。 计 划 建 设 项 目 总 建筑 面 
积 约 为 178 平方 米 ,使 用 面积 约 为 123 平方 米 。 分 为 三 个 功能 区 域 ,分 别 为 主 设备 机 房 、 动 
力 机 房 操作 间 、 钢 瓶 间 。 各 间 需 要 单独 隔 开 。 隔 开 后 主 设备 机 房 用 于 放置 配 线 柜 、 机 柜 、 服 
务 器 .小 型 机 、 网 络 设备 .通信 设备 等 重要 设备 ;动力 机 房 放 置 UPS .电池 \ 配 电 柜 等 。 
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(入 项 目 实现 


数据 中 心机 房 属于 大 型 重要 的 计算 机 中 心 ,为 保证 计算 机 机 房 安全 .可 靠 地 运行 ,以 及 
为 工作 人 员 提 供 一 个 良好 的 工作 环境 ,数据 中 心机 房 建设 项 目 严 格 按照 国家 设备 选 型 及 设 
计 规 划 标 准 执行 实施 ,符合 当前 企业 IT 系统 要 求 , 建 设 具备 一 个 完整 的 中 心机 房 工 程 
系统 。 


2.1 IT 基础 设施 


2.1.1 计算 机 系统 组 成 


企业 IT 系统 离 不 开 计算 机 /服务 器 ,计算 机 系统 的 构成 可 以 划分 为 四 个 层面 , 即 计 算 
资源 、 内 部 总 线 , 存 储 资 源 和 软件 资源 。 计 算 资源 主要 由 计算 的 核心 硬件 CPU 来 实现 。 大 
家 知道 ,CPU 运算 速度 越 快 ,计算 机 的 计算 能 力也 越 强 。 数 据 临时 存储 由 内 存 来 完成 ,而 长 
久 存 储 则 由 内 置 硬盘 .光盘 ,软盘 等 来 实现 。 计 算 机 内 部 的 数据 通信 则 由 其 内 部 总 线 (BUS) 
来 完成 ,包括 数据 的 输入 、 输 出 等 。 一 个 完整 的 计算 系统 包括 硬件 及 与 之 相 匹 配 的 软件 。 在 
系统 软件 的 基础 上 ,为 实现 特定 的 业务 功能 应 用 ,针对 应 用 软件 的 开发 也 必 不 可 少 。 

由 此 可 以 看 出 ,在 独立 的 计算 系统 中 ,数据 计算 、 存 储 通常 依靠 CPU 和 内 置 的 存储 设 
备 来 实现 ,在 计算 要 求 越 来 越 快 .计算 规模 和 需 存 储 数据 量 也 越 来 越 大 时 很 容易 出 现 瓶 颈 。 
如 图 2-1 所 示 为 计算 机 系统 的 组 成 。 





2-1 计算 机 系统 的 组 成 


2.1.2 IT 系统 简介 


1. IT 系统 组 成 

随 着 大 型 计算 ,海量 数据 存储 的 发 展 ,对 计算 能 力 .数据 存储 资源 方面 都 有 更 高 的 要 求 ， 
独立 的 计算 机 系统 已 经 很 难 满足 这 些 要 求 。 因 此 ,就 需要 把 多 个 计算 机 系统 集成 起 来 ,构成 
了 一 个 整体 的 IT 系统 。IT 系统 就 是 在 计算 机 系统 的 基础 上 所 进行 的 扩展 和 延伸 ,从 架构 
上 仍然 可 以 将 其 划分 为 计算 资源 .存储 资源 、 网 络 资源 和 软件 资源 四 个 部 分 。 

(1) 计算 资源 : 在 IT 系统 中 ,往往 会 把 多 台 服 务 器 组 成 集群 ,通过 集群 方式 实现 计算 
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资源 的 负载 均衡 ,提升 整体 计算 能 力 , 同 时 提高 系统 的 宛 余 ,保证 系统 的 可 靠 性 。 

(2) 存储 资源 : 在 IT 系统 中 ,存储 资源 从 内 置 存储 向 外 扩展 成 为 外 部 存储 ,通过 构建 
专用 的 外 部 存储 系统 ,数据 存储 得 到 很 大 的 扩展 ,为 大 数据 量 的 存储 提供 了 必 备 条 件 , 同 时 ， 
保证 了 数据 的 安全 可 靠 性 。 

(3) 网 络 资源 : 从 独立 的 计算 机 系统 发 展 成 为 IT 系统 ,必然 需要 强大 的 网 络 资源 提 
供 数据 通路 ,计算 机 系统 内 部 总 线 已 经 不 能 满足 IT 系统 网 络 资源 的 要 求 ,因此 基于 
TCP/IP 网 络 和 基于 FC 协议 的 FC 网 络 架构 得 到 长 足 的 发 展 , 已 经 成 为 IT 系统 网 络 资源 
的 主流 。 

(4) 软件 资源 : 在 IT 系统 架构 中 ,软件 资源 不 仅仅 是 独立 计算 系统 中 的 单一 操作 系 
统 , 而 是 发 展 成 为 集群 软件 系统 、 分 布 式 文件 系统 等 ,通过 这 些 方式 实现 集群 业务 管理 和 分 
布 式 应 用 ,如 图 2-2 所 示 。 














图 2-2 IT 系统 


2. IT 系统 软件 

在 IT 基础 设施 中 ,软件 也 是 必 不 可 少 的 一 部 分 。 软 件 可 以 从 下 到 上 分 为 : 硬件 底层 驱 
动 . 操 作 系统 ,数据库 \ 应 用 软件 。 

硬件 底层 驱动 和 应 用 软件 之 间 需 要 实现 相应 的 信息 交互 。 一 方面 ,应 用 程序 通过 对 了 驱 
动 程序 发 送 指令 ,实现 硬件 控制 的 动作 指令 ; 另 一 方面 ,驱动 程序 将 从 硬件 上 获得 的 数据 传 
送 给 应 用 程序 ,实现 应 用 程序 与 驱动 程序 间 的 交互 。 也 就 是 说 ,硬件 底层 驱动 实现 了 访问 底 
层 硬件 的 人 机 交互 。 例 如 : 主板 芯片 驱动 、 网 卡 驱动 等 。 

操作 系统 是 管理 计算 机 硬件 与 软件 资源 的 计算 机 程序 ,提供 一 个 让 用 户 与 系统 交互 的 
操作 界面 。 操 作 系 统 需 要 处 理 如 管理 与 配置 内 存 、 决 定 系统 资源 供需 的 优先 次 序 ,控制 输入 
与 输出 1/O 设备 ,操作 网 络 与 管理 文件 系统 等 基本 事务 。 例 如 : 微软 Windows 操作 系统 、 
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Linux 操作 系统 .UNIX 操作 系统 、AIX 系统 等 。 

数据 库 (Database) 是 按照 数据 结构 来 组 织 、 存 储 和 管理 数据 的 仓库 。 随 着 信息 技术 和 
市 场 的 发 展 ,数据 库 又 发 展 出 很 多 种 类 型 ,从 最 简单 ES 
的 数据 表格 到 能 够 进行 海量 数据 存储 的 大 型 数据 库 
系统 都 在 各 个 方面 得 到 了 广泛 的 应 用 ,例如 Oracle、 -Eee 
DB2 等 。 

应 用 软件 是 为 满足 用 户 不 同 领域 .不 同业 务 应 
用 需求 而 提供 的 上 层 软 件 , 它 可 以 拓宽 计算 机 系统 
的 应 用 领域 ,放大 硬件 的 功能 。 例 如 E-mail 应 用 、 
财务 系统 等 ,如 图 2-3 所 示 。 

3. IT 系统 计算 资源 

IT 系统 中 的 计算 资源 通常 由 各 式 各 样 的 服务 
器 构成 。 当 单个 的 服务 器 计算 能 力 不 能 够 满足 应 用 
需求 的 时 候 , 采 用 服务 器 集群 的 形式 提供 计算 能 力 ,如 图 2-4 所 示 。 








数据 库 


图 2-3 IT 系统 软件 





塔 式 服务 器 全 7 
2-4 服务 器 集群 


4. IT 系统 网 络 部 分 

在 IT 系统 基础 设施 网 络 架构 中 主要 划分 成 4 个 层次 ,从 下 到 上 依次 为 : 存储 层 、 服 务 
器 层 核心 层 、 外 部 接 入 层 。 

存储 层 通 过 TCP/IP 或 FC 网 络 连接 到 服务 器 层 .为 服务 器 提供 数据 存储 空间 资源 , 服 
务 器 层 接 入 核心 层 ,内 部 和 外 部 用 户 通过 接 入 层 汇聚 层 连接 核心 层 , 在 核心 层 实现 快速 数 
据 交换 。 为 实现 远程 容 灾 , 企 业 需 要 建立 异地 灾 备 中 心 ,通过 专用 网 络 实现 存储 层 与 灾 备 中 
心 的 互联 。 

5. IT 系统 存储 资源 

存储 资源 根据 存储 的 位 置 可 分 为 内 部 存储 和 外 部 存储 ,后 面 重点 介绍 外 部 存储 ,如 
SAN 存储 和 NAS 设备 ,如 图 2-5 所 示 。 

6. 传统 IT 系统 面临 的 问题 

(1) 资源 利用 率 低 : 服务 器 资源 、 网 络 资源 ,存储 资源 难以 得 到 有 效 的 利用 。 

(2) 系统 可 靠 性 难以 保障 : 设备 的 可 靠 性 ,传输 链 路 的 可 靠 性 难以 保障 。 

(3) 统一 管理 难 : 每 一 个 设备 是 单独 的 一 套 警告 系统 ,要 了 解 整个 系统 的 情况 ,需要 到 
每 一 台 设备 上 去 查看 ,每 一 套 设备 有 单独 的 密码 ,管理 人 员 要 分 别 去 记忆 ,设置 复杂 了 难于 
记忆 ,设置 简单 了 存在 着 一 定 的 安全 隐患 。 

基于 上 述 原 因 , 出 现 了 数据 中 心 ,使 以 上 的 问题 得 到 了 很 好 的 解决 。 
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物理 带 库 磁盘 阵列 虚拟 磁带 库 
(a) SAN 存 储 














(b) NAS 存 储 
图 2-5 SAN 存储 和 NAS 存储 


2.1.3 数据 中 心 的 概念 


数据 中 心 (DataCenter) 通 常 是 指 在 一 个 物理 空间 内 实现 信息 的 集中 处 理 、 存 储 、 传 输 、 
交换 、 管 理 。 

计算 机 设备 .服务 器 设备 .网 络 设备 .存储 设备 等 通常 认为 是 数据 中 心 的 关键 设备 。 关 
键 设备 运行 所 需要 的 环境 因素 ,如 供电 系统 制冷 系 统 、. 机 柜 系 统 、 消 防 系统 ,监控 系统 等 通 
常 被 认为 是 关键 物理 基础 设施 ,如 图 2-6 所 示 。 





图 2-6 数据 中 心 
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1. 数据 中 心 结构 

广义 的 数据 中 心 是 企业 (机 构 ) 的 业务 系统 与 数据 资源 进行 集中 、 集 成 .共享 分析 的 场 
地 ,工具 ,流程 的 有 机 组 合 。 其 核心 内 容 包 括 业 务 系统 、 数 据 ETL、ODS 数据 库 、 数 据 仓 库 、 
数据 集 市 .商务 智能 等 ,也 包括 物理 的 运行 环境 (中 心机 房 ) 和 运行 维护 管理 服务 。 具 体 来 说 
它 包含 以 下 四 个 方面 。 

(1) 数据 中 心 提 供 所 有 应 用 系统 (包括 集中 的 业务 应 用 系统 、 数 据 交 换 平台 、 应 用 集成 
平台 ) 的 运营 环境 。 

(2) 数据 中 心 是 容纳 用 以 支持 应 用 系统 运行 的 基础 设施 (包括 机 房 、 服 务 器 、 网 络 、 存 储 
设备 ) 的 物理 场所 。 

(3) 数据 中 心包 括 数据 中 心 本 身 的 ODS、 数 据 仓库 及 建立 在 其 上 的 决策 分 析 应 用 。 

(4) 数据 中 心 有 一 套 成 熟 的 运行 、 维 护 体系 支持 其 日 常 运行 ,保证 应 用 系统 高 效 、 准 确 、 
不 间断 地 运行 。 

根据 数据 中 心 的 定义 和 发 展 趋势 .可 以 将 数据 中 心 划分 为 以 下 4 个 层次 。 

基础 设施 层 : 用 统一 的 技术 将 机 房 . 通 信 、 计 算 ,存储 等 IT 基础 资源 融合 形成 数据 中 心 
的 基础 设施 ,为 业务 系统 提供 基本 的 资源 服务 ,提高 资源 利用 率 以 及 IT 系统 的 可 靠 性 。 

基础 软件 层 : 信息 资源 是 企业 生产 过 程 中 所 涉及 的 一 切 文件 .资料 .图 表 和 数据 等 信息 
的 总 称 。 本 层 存储 了 企业 (机 构 ) 生 产 和 经 营 活动 所 产生 获取、 处 理 、 存 储 、 传 输 和 使 用 的 一 
切 信息 资源 。 

管理 调度 : 实现 存储 资源 化 .计算 资源 化 、 网 络 资源 化 ,并 能 够 动态 调整 资源 匹配 数据 
的 读 写 存储 ,解决 统一 管理 难 的 问题 。 

应 用 层 : 主要 包括 针对 结构 化 和 非 结 构 化 数据 的 各 种 应 用 ,包括 各 种 业务 系统 、 辅 助 决 
策 系统 和 各 种 多 媒体 应 用 (监控 、 流 媒体 、 统 一 通信 、 呼 叫 中 心 视频 会 议 .、VOIP) ,如 图 2-7 
所 示 。 








EN EI Hn 


图 2-7 数据 中 心 结构 





2. 存储 在 数据 中 心 的 功能 
(1) 集中 存储 : 分 散 的 存储 不 便于 集中 管理 ,存储 资源 也 不 利于 共享 ,造成 资源 的 
浪费 。 
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(2) 海量 空间 : 随 着 Internet 的 发 展 ,海量 的 非 结构 化 数据 的 诞生 ,对 数据 中 心 的 存储 
也 提出 了 新 的 要 求 , 在 一 定 程度 上 ,海量 存储 空间 的 大 小 直接 决定 着 数据 中 心 的 发 展 规模 。 

(3) 快速 IO: 由 于 数据 中 心 的 用 户 众 多 .1/O 的 快速 响应 能 力 直接 决定 着 用 户 的 应 用 
感知 ,因此 ,快速 的 1/O 也 为 数据 中 心 的 高 效 运行 提供 了 保障 。 


2.2 存储 环境 


2.2.1 主机 的 内 部 应 用 环境 


主机 服务 器 大 部 分 W/O 开始 于 需要 访问 数据 的 应 用 ,应 用 通常 不 考虑 存储 后 端的 操作 
细节 ,而 是 直接 调用 由 操作 系统 提供 的 系统 调用 接口 ,然后 由 操作 系统 支持 的 文件 系统 为 数 
据 提 供 数 据 的 逻辑 地 址 和 在 磁盘 上 存储 的 物理 地 址 的 映射 ,再 通过 设备 驱动 层 ,主要 是 
SCSI 协议 的 操作 ,将 数据 存储 到 存储 设备 (比如 主机 服务 器 内 部 硬盘 ) 上 。 因 此 主机 服务 器 
内 部 数据 存储 I/O 流程 中 的 各 个 环节 对 数据 存储 的 可 靠 性 .性 能 和 安全 性 都 起 到 非常 重要 
的 作用 ,从 独立 的 主机 服务 器 来 看 ,其 内 部 I/O 流程 各 个 环节 即 共同 构成 了 存储 的 内 部 应 
用 环境 ,如 图 2-8 所 示 。 























| 1 
上 层 业务 应 用 文件 系统 
IO 请 求 地 址 映射 
操作 系统 | | | 设备 驱动 ” ”| 
SCSI 指 今 


调用 接口 存储 设备 


2-8 主机 的 内 部 应 用 环境 


2.2.2 传统 内 置 存储 遇 到 的 问题 


在 传统 的 计算 机 存储 系统 中 ,存储 工作 通常 是 由 计算 机 内 置 的 硬盘 来 完成 ,而 采用 这 样 
的 设计 方式 ,硬盘 本 身 的 缺陷 很 容易 成 为 整个 系统 的 性 能 瓶颈 ,并 且 由 于 机 箱 内 有 限 的 空 
间 ,限制 了 硬盘 数量 的 扩展 ,同时 也 对 机 箱 内 的 散热 .供电 等 提出 了 严峻 的 挑战 。 再 加 上 不 
同 的 计算 机 各 自 为 战 ,使 用 各 自 内 置 的 硬盘 ,导致 从 总 体 看 来 存储 空间 的 利用 率 较 低 ,并且 
分 散 保存 的 数据 也 不 利于 数据 的 共享 和 备份 工作 。 在 传统 的 C/S 架构 中 ,无 论 使 用 的 是 何 
种 协议 ,存储 设备 都 直接 与 服务 器 相连 接 。 在 这 样 的 结构 下 ,对 存储 设备 上 所 保存 的 所 有 数 
据 的 任何 读 写 操作 ,都 必须 由 服务 器 来 进行 ,这 样 的 处 理 方式 给 服务 器 带 来 了 沉重 的 负担 。 

外 部 存储 系统 的 出 现 , 彻 底 将 服务 器 从 烦琐 的 I/O 操作 中 解放 出 来 ,使 服务 器 更 加 专 
门 化 ,使 之 仅仅 承担 应 用 数据 的 操作 任务 ,以 更 充分 地 释放 自身 潜能 ,如 图 2-9 所 示 。 


2.2.3 网 络 存 储 应 用 环境 


网 络 存储 系统 按照 不 同 的 功能 ,可 划分 为 三 层 。 
第 一 层 : 主机 层 。 运 行 相关 应 用 ,发 起 存储 IO 操作 。 在 主机 侧 需要 存储 连接 的 设备 主 
31 


数据 安全 与 灾 备 管理 





























i 醉 天 大 击 
接口 接口 接口 
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硬盘 硬盘 





图 2-9 传统 内 置 存储 


要 有 FC HBA 卡 ,iSCSI HBA 卡 、 以 太 网 卡 , 需 在 主机 侧 安装 的 存储 连接 软件 包括 initiator 
启动 器 .open-iSCSI、 多 路 径 软 件 等 。 

第 二 层 : 网 络 层 。 将 主机 与 存储 层 互 联 , 提 供 网 络 通路 ,可 采用 FC 网 络 或 者 以 太 网 络 
的 方式 。 以 太 网 络 可 利用 原 有 以 太 网 络 连 接 ,利用 现 有 资源 组 网 。FC 网 络 需要 建立 专门 
的 网 络 ,速度 快 ,但 是 FC 器 件 都 较 昂贵 成 本 高 。 

第 三 层 : 存储 层 。 存 储 系统 的 核心 层 ,对 数据 进行 存储 、 管 理 。 

上 面 提 到 的 每 一 层 都 将 对 数据 存储 的 可 靠 性 性能、 安全 性 产生 重要 影响 ,因此 在 进行 
存储 系统 建设 时 ,需要 从 以 上 各 层 使 用 的 硬件 设备 .软件 协议 .组 网 架构 等 方面 考虑 ,以 保证 
业务 应 用 对 数据 存储 可 靠 性 性能、 安全 性 方面 的 需求 ,如 图 2-10 所 示 。 





网 络 连接 


主机 、 服 务 器 


图 2-10 网 络 存储 系统 
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2.3 存储 介质 


2.3.1 机 械 硬盘 


1. 机 械 硬 盘 的 结构 
机 械 硬 盘 包 含 机 械 装置 和 电子 装置 ,如 图 2-11 所 示 。 可 以 分 为 如 下 部 分 。 


(1) 磁头 组 件 : 用 于 数据 的 读 取 和 写 入 。 
(2) 磁头 驱动 机 构 : 用 于 驱动 磁头 臂 将 磁头 送 


达 指 定 的 位 置 。 


(3) 盘 片 组 : 数据 的 载体 。 

(4) 主轴 驱动 装置 : 驱动 盘 片 维持 高 速 运转 。 
(5) 控制 电路 : 系统 控制 . 调 速 .驱动 等 。 

(6) 接口 : 用 于 硬盘 与 主板 连接 ,常见 的 接口 类 





型 有 ATA、SATA、SAS。 
2. 机 械 硬盘 的 磁头 技术 
机 械 硬盘 的 磁头 技术 如 图 2-12 所 示 ,主要 包括 机 械 部 分 和 电子 部 分 。 
机 械 部 分 电子 部 分 
主轴 驱动 


(1) 机 械 部 分 


图 2-11 机 械 硬 盘 


盘 片 电缆 线圈 








-被 磁化 粒子 
` 磁 头 。 磁性 材料 —_S 
一 盘 片 














2-12 ”机 械 硬 盘 


中 系统 在 密封 机 构 里 。 

@ 盘 片 固定 并 由 主轴 了 驱动 来 进行 高 速 旋转 。 
@ 磁头 沿 盘 片 径 向 移动 。 

@ 磁头 在 盘 片 上 方 飞行 。 


(2) 电子 部 分 

@ 盘 片 上 溅 镀金 
@ 通过 控制 线圈 
@ 对 盘面 上 的 金 


属性 粒子 . 旦 不 规则 排列 。 


上 的 电流 ,磁头 形成 磁场 。 





属 粒子 进行 磁化 (整齐 排列 ) 。 
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3. 盘 片 的 功能 分 布 

磁头 靠近 主轴 接触 的 表面 , 即 线 速度 最 小 的 地 方 .是 一 个 特殊 的 区 域 . 它 不 存放 任何 数 
据 , 称 为 启 停 区 或 着 陆 区 (Landing Zone) , 启 停 区 外 就 是 数据 区 。 在 最 外 圈 , 离 主轴 最 远 的 
地 方 是 0 磁道 ,硬盘 数据 的 存放 就 是 从 最 外 圈 开 始 的 。 那 么 ,磁头 是 如 何 找到 0 磁道 的 位 置 
的 呢 ? 在 硬盘 中 还 有 一 个 叫 0 磁道 检测 器 的 构件 , 它 是 用 来 完成 硬盘 的 初始 定位 。 

4. 盘 片 的 逻辑 结构 

(1) 磁道 (Track) : 磁盘 上 人 为 规定 的 若干 个 同心 圆 的 轨道 称 为 磁道 。 磁道 从 外 向 内 
由 0 开始 编号 ,数量 为 300 一 1024 ,甚至 更 多 。 

(2) 柱 面 (Cylinder): 所 有 盘面 上 的 同一 磁道 构成 一 个 圆柱 , 称 为 柱 面 ; 柱 面 从 外 向 内 
由 0 开始 编号 ,与 磁道 数目 一 致 

(3) 扇 区 (Sector) : 磁盘 上 每 个 磁道 被 分 为 若干 个 弧 段 , 从 1 开始 编号 。 每 个 弧 段 可 以 
存储 512B 或 4KB 的 信息 , 称 为 扇 区 。 

(4) 磁头 数 (Head Number) : 磁盘 上 每 个 盘面 都 有 对 应 的 读 写 磁头 。 磁 头 数 与 盘面 数 
一 致 ,如 图 2-13 所 示 。 














0 号 磁头 
0 号 磁道 
1 号 磁道 
1 号 磁头 
2 号 磁头 
0 号 柱 面 
1 号 柱 面 一 一 | 3 号 磁头 
4 号 磁头 
5 号 磁头 
图 2-13 盘 片 的 逻辑 结构 
5. 硬盘 主要 参数 
(1) 硬盘 容量 (Volume) : 容量 的 单位 为 兆 字 节 (MB) 或 千 兆 字 节 (GB) 。 影 响 硬盘 容量 
的 因素 有 单 碟 容 量 和 碟 片 数量 。 


(2) 转速 (Rotational Speed): 硬盘 的 转速 是 指 硬盘 盘 片 每 分 钟 转 过 的 圈 数 ,单位 为 
RPM(Rotation Per Minute) 。 一 般 硬 盘 的 转速 都 达到 5400/7200RPM。 有 些 SCSI 接口 的 
硬盘 使 用 了 液态 轴承 技术 ,转速 可 达 10000 一 15000RPM。 

(3) 缓存 (Cache) : 由 于 CPU 与 硬盘 之 间 存 在 巨大 的 速度 差异 ,为 解决 硬盘 在 读 写 数 
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据 时 CPU 的 等 待 问题 ,在 硬盘 上 设置 了 适当 的 高 速 缓存 ,以 解决 二 者 之 间 速 度 不 匹配 的 问 
题 。 硬 盘 缓 存 与 CPU 上 的 高 速 缓存 作用 一 样 ,是 为 了 提高 硬盘 的 读 写 速度 。 

6. 平均 访问 时 间 

(1) 平均 寻 道 时 间 (Average Seek Time) : 硬盘 的 平均 寻 道 时 间 是 指 硬盘 的 磁头 从 初始 
位 置 移动 到 盘面 指定 磁道 所 需 的 时 间 ,是 影响 硬盘 内 部 数据 传输 率 的 重要 参数 。 这 个 时 间 
越 小 越 好 。 目 前 IDE 硬盘 的 平均 寻 道 时 间 通 常 在 8 一 1lms。 

(2) 硬盘 的 等 待 时 间 (Average Latency Time) : 硬盘 的 等 待 时 间 又 叫 潜 伏 期 ,是 指 磁头 
已 处 于 要 访问 的 磁道 ,等 待 所 要 访问 的 扇 区 旋转 至 磁头 下 方 的 时 间 。 平 均等 待 时 间 通 常 为 
盘 片 旋转 一 周 所 需 时 间 的 一 半 , 因 此 硬盘 转速 越 快 ,等 待 时 间 就 越 短 ,一 般 应 在 4ms 以 下 。 

(3) 平均 访问 时 间 (Average Access Time) : 平均 访问 时 间 三 平均 寻 道 时 间 十 平均 等 待 
时 间 。 

7. 数据 传输 率 

(1) 数据 传输 率 (Data Transfer Rate) : 硬盘 的 数据 传输 率 是 指 硬盘 读 写 数据 的 速度 ， 
单位 为 兆 字 节 每 秒 (MB/s)。 硬 盘 数 据 传输 率 包括 内 部 传输 率 和 外 部 传输 率 两 个 指标 。 

(2) 内 部 传输 率 (Internal Transfer Rate): 内 部 传输 率 也 称 为 持续 传输 率 (Sustained 
Transfer Rate) ,是 缓存 之 间 的 数据 传输 速度 , 它 反映 了 硬盘 缓冲 区 没有 使 用 时 的 性 能 ,这 可 
以 说 是 影响 硬盘 整体 速度 的 瓶颈 。 内 部 传输 率 主 要 依赖 于 硬盘 的 磁头 到 硬盘 的 高 速 旋转 速 
度 , 并 以 Mb/s 或 Mbps 为 单位 。 

(3) 外 部 传输 率 (External Transfer Rate) : 外 部 传输 率 也 称 为 突 发 数据 传输 率 (Burst 
Data Transfer Rate) 或 接口 传输 率 。 它 指 的 是 系统 总 线 与 硬盘 缓冲 区 之 间 的 数据 传输 率 ， 
与 硬盘 接口 类 型 和 硬盘 缓存 的 大 小 有 关 。 

8. IOPS 和 Throughput 

(1) IOPS: IOPS(Input/Output Per Second) 即 每 秒 的 输入 输出 量 (或 读 写 次 数 ) ,是 稀 
量 磁盘 性 能 的 主要 指标 之 一 。 

(2) Throughput: Throughput( 吞 吐 量 ) 指 单位 时 间 内 可 以 成 功 传输 的 数据 数量 。 对 于 
大 量 顺序 读 写 的 应 用 .如 电视 台 的 视频 编辑 、 视 频 点 播 VOD(Video On Demand) , 则 更 关注 
春 吐 量 指标 。 

(3) IOPS 计算 方法 : 磁盘 完成 一 个 I/O 请 求 所 花费 的 时 间 , 它 由 寻 道 时 间 、 旋 转 延 迟 
和 数据 传输 时 间 三 部 分 构成 。 

寻 道 时 间 (Seek Time) 是 指 将 读 写 磁 头 移动 至 正确 的 磁道 上 所 需要 的 时 间 。 寻 道 时 间 
越 短 ,1/O 操作 越 快 ,目前 磁盘 的 平均 寻 道 时 间 一 般 为 3 一 15ms。 

旋转 延迟 时 间 (Rotational Latency Time) 是 指 盘 片 旋转 将 请 求 数据 所 在 扇 区 移 至 读 写 
磁头 下 方 所 需要 的 时 间 。 旋 转 延 迟 取决 于 磁盘 转速 ,通常 使 用 磁盘 旋转 一 周 所 需 时 间 的 1/2 
表示 。 比 如 ,7200rpm 的 磁盘 平均 旋转 延迟 大 约 为 60 X1000/7200/2 二 4. 17ms, 而 转速 为 
15000 rpm 的 磁盘 其 平均 旋转 延迟 约 为 2ms。 

数据 传输 时 间 (Data Transfer Time) 是 指 完成 传输 所 请 求 的 数据 所 需要 的 时 间 , 它 取决 
于 数据 传输 率 , 其 值 等 于 数据 大 小 除 以 数据 传输 率 。 目 前 IDE/ATA 能 达到 133MB/s， 
SATA 开 可 达到 300MB/s 的 接口 数据 传输 率 , 数 据 传输 时 间 通 常 远 小 于 前 两 部 分 时 间 。 因 
此 ,理论 上 可 以 计算 出 磁盘 的 最 大 IOPS, 即 IOPS=1000 ms/( 寻 道 时 间 十 数据 延迟 时 间 ) 
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忽略 数据 传输 时 间 。 假 设 磁盘 平均 物理 寻 道 时 间 为 3ms, 磁盘 转速 分 别 为 7200rpm、 
1000rpm、15000rpm, 则 磁盘 IOPS 理论 最 大 值 分 别 为 : 
IOPS 1000 二 (3 十 60000 二 7200 二 2) 140 
IOPS 1000 二 (3 十 60000 二 10000 一 2) 167 
IOPS 1000 二 (3 十 60000 二 15000 二 2) 200 
9. 硬盘 常用 接口 
(1) ATA 接口 
ATA 接口 发 展 到 今天 ,可 以 细 分 成 ATA-1(IDE)、ATA-2(EIDE Enhanced IDE/Fast 
ATA).ATA-3(Fast ATA-2) .Ultra ATA .Ultra ATA/33 .Ultra ATA/66 .Ultra ATA/100 
及 Serial ATA。ATA 发 展 到 ATA100 已 经 到 了 尽头 ,转向 SATA。 
ATA 接口 具有 以 下 优 缺 点 。 
优点 : 价格 低廉 ,兼容 性 非常 好 。 
缺点 : 速度 慢 ,只 能 内 置 使 用 ,对 接口 电缆 的 长 度 有 很 严格 的 限制 。 
(2) SCSI 接口 
SCSI(Small Computer System Interface, 小 型 计算 机 系统 接口 ) 硬 盘 并 发 处 理性 能 优 
异 , 常 应 用 于 企业 级 存储 领域 。SCSI 硬盘 分 50 针 、68 针 、80 针 , 由 SCSI1 不 断 发 展 至 当前 
主流 的 Ultra 320(320MB/s) ,如 图 2-14 所 示 。 






































图 2-14 ” SCSI 接口 


优点 : 

。 适应 面 广 ,在 一 块 SCSI 控制 卡 上 就 可 以 同时 挂 接 15 个 设备 。 

。 高 性 能 (具有 多 任务 ,高 带宽 及 CPU 占用 率 低 等 特点 )。 

。 有 外 置 和 内 置 两 种 ,支持 热 插 拔 。 

缺点 : 

价格 昂贵 ,安装 复杂 。 

(3) SATA 接口 

SATA(Serial ATA , 串 行 ATA) 采 用 串 行 方式 进行 数据 传输 ,接口 速率 比 IDE 接口 高 ， 
最 低 为 110MBps ,并 且 第 二 代 (SATAI )300MBps 接口 硬盘 已 经 形成 商用 ,规划 内 的 最 高 
速率 可 达 600MBps。 

SATA 硬盘 采用 点 对 点 连接 方式 ,支持 热 插 拔 . 即 插 即 用 。SATA 接口 通常 为 7 十 15 
针 , 采 用 单 通道 ,传输 速率 要 比 ATA 更 快 。SATA 具有 比 ATA 更 好 的 抗 干扰 能 力 ,如 
图 2-15 所 示 。 

(4) SAS 接口 

SAS(Serial Attached SCSI, 串 行 连接 SCSD 是 一 种 点 对 点 、 全 双 工 、 双 端口 的 接口 。 其 
具有 如 下 特点 。 
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2-15 SATA 接口 


Q@ SAS 专 为 满足 高 性 能 企业 需求 而 设计 ,实现 与 SATA 的 互 操作 ,为 企业 用 户 带 来 前 
所 未 有 的 灵活 性 和 低 成 本 。 

@ 速率 为 每 路 600Mbps。 

SAS 具有 高 性 能 ,高 可 靠 性 ,以 及 强大 的 扩展 能 力 。 


SAS 可 以 向 下 兼容 SATA ,同样 采用 串 行 技术 ,在 传输 速率 、 抗 干扰 性 方面 强 于 SCSI， 
SAS 接口 硬盘 价格 相对 更 高 ,如 图 2-16 所 示 。 


ys 


2-16 SAS 接口 





(5) FC 接口 


FC( 光 纤 通 道 仲 裁 环 ) 硬 盘 定 位 于 高 端 存储 应 用 .可 靠 性 好 ,性 能 高 。FC 硬盘 一 般 同时 
提供 两 个 FC 接口 ,可 同时 使 用 或 互 为 备份 ,如 图 2-17 所 示 。 





40-pin Male FC-SCA 
ll Connector 


图 2-17 FC 接口 
优点 : 
。 具有 很 好 的 升级 性 ,可 以 用 非常 长 的 光纤 电缆 连接 ,可 超过 10km; 
。 具有 非常 高 的 带宽 ; 
。 具有 很 强 的 通用 性 。 
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缺点 : 
”价格 非常 昂贵 ; 
。 组 件 复杂 。 


2.3.2 SSD 硬盘 


1. SSD 简介 

SSD 固态 硬盘 (Solid State Drives) 简 称 固 盘 。 固 态 硬 盘 是 用 固态 电子 存储 芯片 阵列 而 
制 成 的 硬盘 ,由 控制 单元 和 存储 单元 (FLASH 芯片 .DRAM 芯片 ) 组 成 。 固 态 硬盘 在 接口 
的 规范 和 定义 、 功 能 及 使 用 方法 上 与 普通 硬盘 完全 相同 ,在 产品 外 形 和 尺寸 上 也 与 普通 硬盘 
完全 一 致 ,被 广泛 应 用 于 军事 车载. 工控、 视频 监控 、 网 络 监控 、 网 络 终端 .电力 、 医 疗 . 航 空 、 
导航 设备 等 领域 。 

其 芯片 的 工作 温度 范围 很 宽 , 商 规 产品 为 0C 一 70YC , 工 规 产品 一 40'C ~85'C 。 虽 然 成 
本 较 高 ,但 也 正在 逐渐 普及 到 DIY 市 场 。 由 于 固态 硬盘 技术 与 传统 硬盘 技术 不 同 , 所 以 产 
生 了 不 少 新 兴 的 存储 器 厂商 。 厂 商 只 需 购买 NAND 存储 器 ,再 配合 适当 的 控制 芯片 ,就 可 
以 制造 固态 硬盘 了 。 新 一 代 的 固态 硬盘 普遍 采用 SATA-2 接口 . SATA-3 接口 .SAS 接口 、 
MSATA 接口 .PCLE 接口 .NGFF 接口 .CFast 接口 和 SFF-8639 接口 ,如 图 2-18 所 示 。 





WWE 





2-18 SSD 固态 硬盘 


2. 分 类 方式 

固态 硬盘 的 存储 介质 分 为 两 种 ,一 种 是 采用 闪存 (FLASH 芯片 ) 作 为 存储 介质 ,另外 一 
种 是 采用 DRAM 作为 存储 介质 。 

(1) 基于 闪存 类 

基于 闪存 的 固态 硬盘 (IDE FLASH DISK ,Serial ATA Flash Disk) : 采用 FLASH 芯 
片 作 为 存储 介质 ,这 也 是 通常 所 说 的 SSD。 它 的 外 观 可 以 被 制作 成 多 种 模样 ,例如 ,笔记 本 
硬盘 、 微 硬盘 、 存 储 卡 、U 盘 等 样式 。 这 种 SSD 固态 硬盘 最 大 的 优点 就 是 可 以 移动 ,而 且 数 
据 保护 不 受 电源 控制 ,能 适应 于 各 种 环境 ,适合 于 个 人 用 户 使 用 ,如 图 2-19 所 示 。 

(2) 基于 DRAM 类 

基于 DRAM 的 固态 硬盘 采用 DRAM 作为 存储 介质 ,应 用 范围 较 窗 。 它 效仿 传统 硬盘 
的 设计 ,可 被 绝 大 部 分 操作 系统 的 文件 系统 工具 进行 卷 设置 和 管理 ,并 提供 工业 标准 的 PCI 
和 FC 接口 用 于 连接 主机 或 者 服务 器 。 应 用 方式 可 分 为 SSD 硬盘 和 SSD 硬盘 阵列 两 种 。 
它 是 一 种 高 性 能 的 存储 器 ,而 且 使 用 寿命 很 长 .美中不足 的 是 需要 独立 电源 来 保护 数据 安 
全 。DRAM 固态 硬盘 属于 比较 非 主流 的 设备 ,如 图 2-20 所 示 。 
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图 2-19 基于 闪存 的 固态 硬盘 图 2-20 基于 闪存 的 固态 硬盘 


3. 控制 器 

SSD 的 关键 部 件 由 控制 器 和 存储 单元 两 部 分 组 成 。 除 此 之 外 ,还 有 缓存 和 主机 接口 。 
每 个 SSD 都 有 一 个 控制 器 (controller) 将 存储 单元 连接 到 计算 机 上 。 控 制 器 是 一 个 执行 固 
件 (firmware) 代 码 的 能 入 式 处 理 器 。 主 要 功能 如 下 : 

(1) 错误 检查 和 纠正 (ECC); 

(2) 磨损 平衡 (Wear Leveling); 

(3) 坏 块 映射 (Bad Block Mapping); 

(4) Read Disturb( 读 取 某 个 块 的 数据 的 时 候 会 影响 到 相 邻 块 的 数据 ?管理 ; 

(5) 缓存 控制 ; 

(6) 垃圾 回收 ; 

(7) 加 密 。 

4. 存储 单元 

尽管 某 些 厂商 推出 了 基于 更 高 速 的 DRAM 内 存 的 产品 ,但 NAND 闪存 依然 最 常见 , 占 
据 着 绝对 主导 地 位 。 低 端 产品 一 般 采 用 MLC(Multi Level Cell) 甚 至 TLC(Triple Level 
CelD 闪 存 , 其 特点 是 容量 大 、 速 度 慢 、 可 靠 性 低 、 存 取 次 数 低 、 价 格 也 低 。 高 端 产品 一 般 采用 
SLC(Single Level Cell) 闪 存 , 其 特点 是 技术 成 熟 、 容 量 小 、 速 度 快 .可 靠 性 高 . 存 取 次 数 高 、 
价格 也 高 。 但 是 事实 上 ,取决 于 不 同 产品 的 内 部 架构 设计 ,速度 和 可 靠 性 的 差别 也 可 以 通过 
各 种 技术 加 以 弥补 甚至 反 转 。 

5. 缓存 

基于 NAND 闪存 的 SSD 通常 带 有 一 个 基于 DRAM 的 缓存 ,其 作用 与 普通 的 机 械 式 硬 
盘 类 似 ,但 是 还 会 存储 一 些 诸如 Wear Leveling 数据 之 类 的 其 他 数据 。 把 数据 先 缓存 在 
DRAM 中 ,然后 集中 写 入 ,从 而 减少 写 和 次数。 特例 之 一 是 SandForce 公司 生产 的 控制 器 ， 
它 不 含 缓存 ,但 是 性 能 依旧 很 出 色 , 由 于 其 结构 简单 ,故而 可 以 生产 体积 更 小 的 SSD, 并 且 掉 
电 时 数据 更 安全 。 

6. 主机 接口 

主机 接口 与 控制 器 紧密 相关 ,但 是 通常 与 传统 的 机 械 式 硬盘 相差 不 大 ,主要 有 
ODSATA; @SAS; @PCI-E; @Fibre Channel; @USB。 主 机 接口 的 速度 限制 了 SSD 所 能 
达到 的 速度 峰值 ,但 是 一 般 这 并 不 是 导致 上 瓶 颈 的 原因 。 

7. SSD 性 能 

SSD 性 能 大 致 上 可 以 用 并 行 工 作 的 NAND 闪存 芯片 数 ( 也 称 为 通道 数 ,目前 主流 
的 固态 硬盘 拥有 8 一 16 通道 ) 来 衡量 。 一 个 单独 的 NAND 芯片 很 慢 , 但 是 当 多 个 芯 
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并 行 工 作 时 ,性 能 就 会 得 到 巨大 的 提升 ,其 原理 类 似 于 RAID0 , 买 块 SSD 就 等 于 是 买 了 
块 “ 阵 列 卡 十 盘 ”。 

在 2010 年 由 著名 的 Xssist 网 站 使 用 IOmeter 工具 对 Intel X25-E 64 GB G1 进行 的 一 
项 测试 中 ,以 4KB 随机 “70% 读 十 30% 写 ”、 队 列 深度 为 4, 进行 持续 测试 。 开 始 的 时 候 可 以 
达到 10 000 IOPS, 但 是 性 能 很 快 便 急 速 下 降 ,8 分 钟 之 后 就 只 剩 下 4 000 IOPS 了 ,而 50 分 
钟 之 后 ,就 稳定 在 3 500 IOPS 左右 了 。 除 了 这 种 短 时 间 可 发 现 的 急速 性 能 下 降 之 外 ,还 存 
在 着 随时 间 推 移 性 能 缓慢 下 降 的 问题 (主要 是 存储 单元 老化 和 损坏 所 致 )。 能 否 有 效 地 处 理 
性 能 下 降 的 问题 不 但 关系 到 SSD 的 长 期 运行 的 实际 性 能 ,而 且 关 系 到 其 寿命 (SSD 一 旦 损 
坏 ,其 内 部 的 数据 将 全 部 丢失 ,而 且 基 本 上 是 不 可 恢复 的 )。 因 为 导致 性 能 下 降 的 原因 也 和 
其 使 用 寿命 紧密 相关 。 通 常 , 固 态 硬 盘 的 性 能 越 差 意味 着 它 的 使 用 寿命 就 越 短 。 这 是 因为 
固态 硬盘 的 磨损 与 固态 硬盘 上 发 生 的 数据 写 入 和 清除 次 数 直接 相关 。 发 生 写 数据 的 次 数 越 
多 ,性 能 就 越 差 ,其 寿命 也 就 越 短 。 

对 于 传统 硬盘 ,人 们 常用 平均 无 故障 时 间 (MBTF) 来 标识 其 可 靠 性 ,现在 很 多 SSD 制 
造 商 借用 这 个 指标 来 说 明 SSD 质量 的 高 低 。 显 然 , 这 样 做 法 过 于 牵强 。 事 实 上 ,SSD 的 寿 
命 与 其 如 何 使 用 有 密切 关系 。 比 如 ,Intel 的 消费 级 SSD X25-M 的 MTBF 为 120 万 个 小 时 ， 
与 普通 的 磁 介 质 大 体 相 当 。Intel 估计 ,如 果 每 天 写 入 100GB 数据 ,理论 上 可 以 使 用 5 年 ,不 过 
这 只 是 理论 上 的 最 优 情况 ,实际 寿命 肯定 比 这 个 要 短 。 另 外 ,NAND 闪存 中 的 数据 最 多 只 可 
以 保存 10 年 左右 ,也 就 是 说 10 年 是 SSD 理论 上 的 最 大 寿命 。 值 得 注意 的 是 ,SSD 的 使 用 寿命 
主要 取决 于 其 写 和 人 数据 的 次 数 ,而 与 读 取 次 数 关系 不 大 。 有 鉴于 此 ,那些 以 * 一 次 存 取 , 多 次 查 
询 ” 为 主 的 应 用 形式 (如 搜索 引擎 ,数据 仓库 ) 应 该 是 SSD 最 适合 的 应 用 场合 。 

8. SSD 技术 解析 

(1) SLC/eSLC MLC/eMLC 和 TLC/eTLC 

SSD 的 基本 存储 单元 分 为 三 类 : SLC(Single Level Cell, 单 层 单元 ) 和 MLC(CMnulti 
Level Cell, 多 层 单元 ) 以 及 较 新 的 TLC(Triple Level Cell, 三 层 单元 )。 低 端 产品 一 般 采 用 
MLC(multi Level Cell) 或 者 TLCCTriple Level Cel) 闪 存 , 其 特点 是 功 耗 高 ,容量 大 、 速 度 慢 
(2MB/s) 可靠 性 低 、 存 取 次 数 低 (3000 次 (25nm) 一 10 000 次 (50nm) ,制程 越 先进 次 数 反 而 
越 小 )、 价 格 也 低 。 高 端 产品 一 般 采 用 SLC(Single Level CelD) 闪 存 , 其 特点 是 技术 成 熟 、 功 
耗 低 .容量 小 .速度 快 (8MB/s) ,可靠 性 高 \ 存 取 次 数 高 (10 万 次 )、 价 格 也 高 。 造 成 这 种 差异 
的 原因 在 于 ,每 个 MLC/TLC 存储 单元 中 存放 的 资料 较 多 ,结构 相对 复杂 ,出 错 的 概率 会 增 
加 ,必须 进行 错误 修正 ,这 个 动作 导致 其 性 能 和 可 靠 性 大 幅 落 后 于 结构 简单 的 SLC 闪存 。 

SLC 就 是 在 每 个 存储 单元 里 存储 1bit 的 数据 ,存储 的 数据 是 0 还 是 1 基于 电压 阔 值 的 
判定 ,对 于 NAND Flash 的 写 和 人 (编程 ) ,就 是 控制 Control Gate 去 充电 (对 Control Gate 加 
压 ) ,使 得 浮 置 栅 极 存储 的 电荷 够 多 ,超过 4V ,存储 单元 就 表示 0( 已 编程 ); 如 果 没有 充电 或 
者 电压 阔 值 低 于 4V ,就 表示 1( 已 擦 除 ) ,如 图 2-21 所 示 。 

MLC 就 是 每 个 存储 单元 里 存储 2bit 的 数据 ,存储 的 数据 是 00、01、10、11 也 是 基于 电 
压 阔 值 的 判定 , 当 充 入 的 电荷 不 足 3. 5V 时 ,就 代表 11; 当 充 和 人 的 电荷 在 3.5V 和 4.0V 之 
间 , 则 代表 10; 当 充 入 的 电荷 在 4V 和 5. 5V 之 间 , 则 表示 01; 当 充 入 的 电荷 在 5. 5V 以 上 ， 
则 表示 00。 同 时 MLC 相 比 SLC 虽然 使 用 相同 的 电压 值 , 但 是 电压 之 间 的 阔 值 被 分 成 了 
4 份 ,这 样 就 直接 影响 了 性 能 和 稳定 性 ,如 图 2-22 所 示 。 
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图 2-21 SSD 的 基本 存储 单元 SLC 单 层 单元 
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图 2-22 SSD 的 基本 存储 单元 MLC 单 层 单元 


而 TLC 更 加 复杂 ,因为 每 个 存储 单元 里 存储 3bit 的 数据 ,所 以 它 的 电压 阔 值 的 分 界 点 
就 更 细致 ,导致 的 结果 也 就 是 每 个 存储 单元 的 可 靠 性 更 低 。 由 于 TLC 与 MLC 没有 本 质 区 
别 , 所 以 在 本 文 剩余 部 分 就 不 再 提 及 TLC 了 。 

在 NAND Flash 工厂 制造 处 理 过 程 中 ,厂商 把 晶 元 上 最 好 的 那 部 分 Flash 晶片 挑选 出 
来 并 用 企业 级 的 标准 来 检测 晶片 的 数据 完整 性 和 耐久 度 。 检 测 完 后 ,这 些 晶 片 被 取 下 来 改 
变 内 部 些许 参数 并 进行 之 后 的 比 标准 SLC/MLC 更 苛刻 的 测试 。 当 这 些 晶 片 通过 测试 后 ， 
就 被 定义 为 eSLC/eMLC 级 别 组 ,余下 的 就 成 为 普通 SLC/MLC 级 别 组 了 。 

相对 普通 SLC/MLC 来 说 ,eSLC/eMLC 的 不 同 之 处 主要 体现 在 下 面 4 个 方面 。 

@ P/E 数字 更 大 ,比如 34nm 镁 光 的 eMLC 是 30000 次 ,而 MLC 是 5000 次 。 

@ eSLC/eMLC 擦 写 操作 和 编程 操作 所 需要 的 时 间 相 比 SLC/MLC 更 长 。 

@ 当 使 用 完 厂 商 保证 的 P/E 数 后 ,eSLC/eMLC 的 数据 保存 期 一 般 在 3 个 月 ,而 SLC/ 
MLC 的 数据 保存 期 在 1 年 。 

@ 相对 于 企业 级 的 应 用 下 ,使 用 eSLC/eMLC 的 稳定 性 比 SLC/MLC 要 高 得 多 ,也 就 

41 


数据 安全 与 灾 备 管理 
是 出 错 的 概率 更 小 。 

(2) 多 Plane NAND 

多 Plane NAND 是 一 种 能 够 有 效 提升 性 能 的 设计 。 多 Plane 的 原理 很 简单 ,我 们 看 到 ， 
一 个 晶片 内 部 (Micron 25nm L73A) 分 成 了 2 个 Plane, 而 且 2 个 Plane 内 的 Block 编号 是 单 
双 交 叉 的 。 我 们 在 操作 时 ,也 可 以 进行 交叉 操作 (一 单一 双 ) 来 提升 性 能 。 根 据 测试 , 某 些 情 
况 下 性 能 可 以 比 单 Plane 设计 提高 约 50% 以 上 ,如 图 2-23 所 示 。 
































逻辑 单元 (LUN) 
—4320bytes———— 4320bytes—— 
Es 忆 三 -DQ7 

缓存 寄存 器 4096 [224| 4096 |224 DQ0 

数据 寄存 器 4096 |224 4096 |224| 
1 page=(4K+224 bytes) 

每 个 Plane 是 2048 个 block )1 block=(4K+224) bytesx256 pages 
图 1Block 1Block =(1024K+56K) bytes 
每 个 逻辑 单元 是 二 | 
4096 个 block 1 plane=(1024K+56K) bytesx2048 blocks 
=17 280Mb 
1 LUK=17 280Mbx2 planes 
=34 560Mb 











Plane 0 Plane 1 
(0.2,4…,4094) (1.3,5…,4095) 


2-23 32GB 25nm 的 MLC 芯片 


我 们 看 到 两 个 Plane Page 读 取 操作 相 比 单个 页 面 (Page) 读 取 操 作 ,每 两 个 页 面 节省 了 
一 次 页 面 的 读 取 时 间 。 同 样 作为 擦 除 、 写 人 操作 ,两 个 Plane 的 交叉 操作 也 能 带 来 性 能 的 提 
升 ,如 图 2-24 所 示 。 

(3) 磨损 平衡 

磨损 平衡 (Wear Leveling) 是 确保 闪存 的 每 个 块 被 写 入 的 次 数 相等 的 一 种 机 制 。 通 常 
情况 下 ,在 NAND 块 里 的 数据 更 新 频 度 是 不 同 的 : 有 些 会 经 常 更 新 ,有 些 则 不 常 更 新 。 很 
明显 ,那些 经 常 更 新 的 数据 所 占用 的 块 会 被 快速 地 磨损 掉 , 而 不 常 更 新 的 数据 占用 的 块 磨损 
就 小 得 多 。 为 了 解决 这 个 问题 ,需要 让 每 个 块 的 编程 ( 擦 写 ) 次 数 尽 可 能 保持 一 致 : 这 就 需 
要 对 每 个 页 的 读 取 / 编 程 操作 进行 监测 ,在 最 乐观 的 情况 下 ,这 个 技术 会 让 全 盘 的 颗粒 物理 
磨损 程度 相同 并 同时 报废 。 

磨损 平衡 算法 分 静态 和 动态 。 动 态 磨损 算法 是 基本 的 磨损 算法 : 只 有 用 户 在 使 用 中 更 
新 的 文件 占用 的 物理 页 地 址 被 磨损 平衡 了 。 而 静态 磨损 算法 是 更 高 级 的 磨损 算法 : 在 动态 
磨损 算法 的 基础 上 ,增加 了 对 于 那些 不 常 更 新 的 文件 占用 的 物理 地 址 进行 磨损 平衡 ,这 才 算 
是 真正 的 全 盘 磨 损 平 衡 。 简 单 说 来 ,动态 算法 就 是 每 次 都 挑 最 新 的 NAND 块 来 用 , 老 的 
NAND 块 尽量 不 用 。 静 态 算法 就 是 把 长 期 没有 修改 的 老 数 据 从 一 个 新 NAND 块 里 面 搬出 
来 ,重新 找 个 最 老 的 NAND 块 放 着 ,这 样 新 的 NAND 块 就 能 再 度 进 入 经 常 使 用 区 。 概 念 很 
简单 ,但 实现 却 非常 复杂 ,特别 是 静态 算法 。 

尽管 磨损 均衡 的 目的 是 避免 数据 重复 在 某 个 空间 写 入 ,以 保证 各 个 存储 区 域内 磨 
损 程 度 基 本 一 致 ,从 而 达到 延长 固态 硬盘 的 目的 .但 是 , 它 对 固态 硬盘 的 性 能 有 不 利 
影响 。 
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4KB Page MLC 中 两 个 Plane 读 取 的 比较 


一 | = 读 取 时 间 田 | -数据 输出 -发 送 指令 和 地 址 


~27.3MB/s 
假定 'RC 25ns 





Page 读 取 













发 送 用 来 读 取 Page0 数据 从 Page0 里 输出 发 送 用 来 读 取 Pagel 数据 从 Page1 里 输出 
的 指令 和 地 址 的 指令 和 地 址 


1 I I I I I ~32.4MB/s I 
两 个 Plane paget 

I EE I I I I 假定 'RC 25ns 
I 






中 Data Output Data Output 中 













| 1 1t 1 1 | 1 I 

发 送 用 来 读 取 Page0 数据 从 Page0 的 发 送 指令 和 地 址 ”数据 从 Page0 的 ”发送 用 来 读 取 Page0 

鸣 Plane0 和 Page0 Plane0 里 输出 并 开始 输出 Plane1 里 输出 ”的 Plane0 和 Page0 

上 的 Plene1 指 信和 增 址 | Plane1 数 据 | | 的 Planel 指 令 和 地 址 
Il ' 

0 50hs 100hs 150ps 200hs 250hs 300hs 


2-24 MLC 读 取 比 较 


(4) 垃圾 回收 

由 前 面 的 磨损 平衡 机 制 知道 ,磨损 平衡 的 执行 需要 有 “空白 块 " 来 写 和 更 新 后 的 数据 。 
当 可 以 直接 写 和 人 数据 的 “备用 空白 块 数 量 低 于 一 个 阀 值 后 ,SSD 主 控制 器 就 会 把 那些 包含 
无 效 数据 的 块 里 的 所 有 有 效 数 据 合并 起 来 写 到 新 的 “空白 块 " 中 ,然后 擦 除 这 个 块 以 增加 “ 备 
用 空白 块 ” 的 数量 。 这 个 操作 就 是 SSD 的 垃圾 回收 (Garbage Collection)。 有 三 种 垃圾 回收 
策略 ,如 图 2-25 所 示 。 
@ 闲置 垃圾 回收 。 很 明显 在 进行 垃圾 回收 时 会 消耗 大 量 的 主 控 处 理 能 力 和 带宽 造成 
处 理 用 户 请 求 的 性 能 下 降 ,SSD 主 控制 器 可 以 设置 在 系统 闲置 时 做 “预先 ”垃圾 回收 (提前 
做 垃圾 回收 操作 ) ,保证 一 定数 量 的 “备用 空白 块 ”, 让 SSD 在 运行 时 能 够 保持 较 高 的 性 能 。 
闲置 垃圾 回收 的 缺点 是 会 增加 额外 的 “ 写 入 放大 ”, 因 为 用 户 刚刚 垃圾 回收 的 有效 数 据 ”, 也 
许 马 上 就 会 被 更 新 后 的 数据 蔡 代 而 变 成 “无 效 数 据 ”, 这 样 就 造成 之 前 的 垃圾 回收 做 无 用 
功 了 。 

加 被 动 垃圾 回收 。 这 是 每 个 SSD 都 支持 的 技术 ,但 是 对 主 控制 器 的 性 能 提出 了 很 高 
的 要 求 ,适合 在 服务 器 里 用 到 ,SandForce 的 主 控 就 属于 这 类 。 在 垃圾 回收 操作 消耗 带宽 和 
处 理 能 力 的 同时 处 理 用 户 操作 数据 ,如 果 没 有 足够 强劲 的 主 控制 器 性 能 则 会 造成 明显 的 速 
度 下 降 。 这 就 是 为 啥 很 多 SSD 在 全 盘 写 满 一 次 后 会 出 现 性 能 下 降 的 库 因 ,因为 要 想 继续 写 
入 数据 ,就 必须 要 边 回收 垃圾 边 做 写 和 人。 

名 手动 垃圾 回收 。 用 户 自己 手动 选择 合适 的 时 机 运行 垃圾 回收 软件 ,执行 垃圾 回收 操 
作 。 可 以 想象 ,如 果 系 统 经 常 进行 垃圾 回收 处 理 , 频 繁 地 将 一 些 区 块 进行 擦 除 操作 ,那么 
SSD 的 寿命 也 会 进一步 下 降 。 由 此 把 握 这 个 垃圾 回收 的 频繁 程度 ,同时 确保 SSD 中 的 闪存 
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基本 垃圾 回收 (GO) 原理 图 
| [|e | 
-| | 
三 
| 
4 个 页 的 数据 。 写 入 新 的 4 个 页 E~H， 如 果 要 重新 在 失效 数据 A~D 
A~D 写 入 Block X 改写 A~D4 个 页 ， 上 写 入 新 数据 ， 必 须 先 擦 除 ， 
标记 为 A+~D+。 所 以 主 控 把 数据 读 取 并 写 入 
LBA 重 定向 到 新 地 址 ， Block 上， 然后 擦 除 Block X 
原 A~D 失 败 作为 可 用 空间 
- 国 痢 痢 
首 
三 
3 





























一 般 来 说 , 块 里 的 页 被 写 满 才 会 被 移动 到 块 里 ,所 以 当 这 个 
块 被 写 满 ,GC 就 会 杷 有 效 数据 移动 到 新 块 并 清除 掉 当 前 块 
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图 2-25 基本 垃圾 回收 (GC) 原 理 图 
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芯片 拥有 更 高 的 使 用 寿命 。 

(5) 预 留 空间 

预 留 空间 (Over Provisioning,OP) 是 指 用 户 不 可 操作 的 容量 ,为 实际 物理 闪存 容量 
去 用 户 可 用 容量 。 这 块 区 域 一 般 被 用 来 做 优化 ,包括 磨损 均衡 ,GC 和 坏 块 映射 ,如 图 2-26 
所 示 。 











LEVEL 1 LEVEL 2 LEVEL 3 
737% 0、7%、2896 2% 
颗粒 容量 算法 的 差异 SSD 厂 商 在 固件 里 设 Cr 
1 000 000 000=10 和 人 放 二 证 和， 生生 
1 073 741 824=-2?0 的 不 同 而 设置 不 同 的 
百分比 




















图 2-26 ”SSD 预 留 空间 的 三 层 


第 一 层 为 固定 的 7. 37% ,这 个 数字 是 如 何 得 出 的 呢 ? 我 们 知道 ,机 械 硬 盘 和 SSD 的 
厂商 容量 是 这 样 算 的 ,1GB 是 1 000 000 000 字 节 (10? ) ,但 是 闪存 的 实际 容量 是 每 GB 二 
1 073 741 824,(2”) ,两 者 相差 7.37%。 所 以 说 假设 1 块 128GB 的 SSD 用 户 得 到 的 容量 是 
128 000 000 000 字 节 ,多 出 来 的 那个 7. 37% 就 被 主 控 固 件 用 做 预 留 空 间 了 。 

第 二 层 来 自制 造 商 的 设置 ,通常 为 0、7%、28% 等 , 打 个 比方 ,对 于 128GB 颗粒 的 
SandForce 主 控 SSD, 市 场 上 会 有 120GB 和 100GB 两 种 型 号 卖 ,这 取决 于 厂商 的 固件 设置 ， 
这 个 容量 不 包括 之 前 第 一 层 的 7. 37% 。 

第 三 层 是 用 户 在 日 常 使 用 中 可 以 分 配 的 预 留 空间 ,用 户 可 以 在 分 区 的 时 候 ,不 分 到 完全 
的 SSD 容量 来 达到 这 个 目的 。 不 过 需要 注意 的 是 ,需要 先 做 安全 擦 除 (Secure Erase) ,以 保 
证 此 空间 确实 没有 被 使 用 过 。 

预 留 空间 虽然 让 SSD 的 可 用 容量 小 了 ,但 是 带 来 了 减少 写 入 放大 、 提 高 耐久 性 、 提 高 性 
能 的 效果 。 根 据 经 验 , 预 留 空间 在 20% 一 35%% 是 最 佳 平衡 点 。 

(6) 写 入 放大 

因为 闪存 必须 先 擦 除 ( 也 叫 编程 ) 才 能 写 入 ,在 执行 这 些 操作 的 时 候 , 移 动 或 覆盖 用 户 数 
据 和 元 数据 (metadata) 不 止 一 次 。 这 些 额 外 的 操作 ,不 但 增加 了 写 入 数据 量 , 减 少 了 SSD 
的 使 用 寿命 ,而 且 还 用 光 了 闪存 的 带宽 ,间接 地 影响 了 随机 写 入 性 能。 这 种 效应 就 叫 写 入 放 
大 (Write Amplification)。 一 个 主 控 的 好 坏 主要 体现 在 写 和 放大 上 。 

比如 要 写 入 一 个 4KB 的 数据 ,最 坏 的 情况 是 ,一 个 块 里 已 经 没有 干净 空间 了 ,但 是 有 无 
效 数据 可 以 擦 除 ,所 以 主 控 就 把 所 有 的 数据 读 到 缓存 并 擦 除 块 ,从 缓存 里 更 新 整个 块 的 数 
据 , 再 把 新 数据 写 回去 。 这 个 操作 带 来 的 写 入 放大 就 是 : 实际 写 4KB 的 数据 , 却 造成 了 整 
个 块 (1024KB) 的 写 和 人 操作, 那 就 是 256 倍 放大 。 同 时 带 来 了 原本 只 需要 简单 的 写 4KB 的 
操作 变 成 闪存 读 取 (1024KB) ,缓存 改 (4KB)、 闪 存 擦 (1024KB) 闪存 写 (1024KB) ,造成 了 
延迟 的 大 大 增加 ,速度 急剧 下 降 也 就 是 很 自然 的 事情 了 。 所 以 , 写 入 放大 是 影响 SSD 随机 
写 入 性 能 和 寿命 的 关键 因素 。 

用 100% 随 机 4KB 来 写 入 SSD, 对 于 目前 的 大 多 数 SSD 主 控 而 言 , 在 最 糟糕 的 情况 下 ， 
写 入 放大 的 实际 值 可 能 会 达到 或 超过 20 倍 。 当 然 , 用 户 也 可 以 设置 一 定 的 预 留 空间 来 减少 
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写 入 放大 ,假设 有 个 128GB 的 SSD, 则 只 分 了 64GB 的 区 使 用 ,那么 最 坏 情况 下 的 写 入 放大 
就 能 减少 约 3 倍 。 

许多 因素 影响 SSD 的 写 入 放大。 下 面 列 出 了 主要 因素 ,以 及 它们 如 何 影 响 写 入 放大 。 

@ 垃圾 回收 虽然 增加 了 写 入 放大 (被 动 垃圾 回收 不 影响 ,闲置 垃圾 回收 影响 ) ,但 是 速 
度 有 所 提升 。 

@ 预 留 空间 可 以 减少 写 人 放大 , 预 留 空间 越 大 , 写 人 放大 越 低 。 

@ 开启 TRIM 指令 后 可 以 减少 写 和 人 放大 。 

@ 用 户 使 用 中 没有 用 到 的 空间 越 大 , 写 和 人 放大 越 低 (需要 有 Trim 支持 ) 。 

@ 持续 写 人 可 以 减少 写 人 放大 。 理 论 上 来 说 ,持续 写 和 人 的 写 人 放大 为 1, 但 是 某 些 因素 
还 是 会 影响 这 个 数值 。 

@ 随机 写 人 将 会 大 大 提升 写 人 放大 ,因为 会 写 人 很 多 非 连续 的 LBA。 

@ 磨损 平衡 机 制 直接 提高 了 写 和 放大。 

(7) DuraWrite 

NAND 闪存 存储 的 一 大 缺陷 就 是 需要 在 写 人 时 对 存储 结构 进行 整理 ,这 导致 实际 上 写 
入 的 数据 比 我 们 真正 需要 存储 的 数据 量 大 。 在 一 款 比 较 普通 的 固态 硬盘 中 ,如 果 需 要 写 和 人 
1GB 数据 ,在 盘 内 结构 已 经 比较 混乱 (存储 删除 .再 存储 ) 的 情况 下 ,最 后 真正 写 入 的 数据 
量 可 能 高 达 10GB 甚至 20GB。 真 实 写 人 数据 与 需要 写 入 数据 之 比 即 为 “ 写 人 放大 率 ”。 

DuraWrite 是 SandForce 开发 的 一 种 减少 SSD 写 入 放大 率 的 技术 : 写 入 1GB 数据 时 ， 
最 终 写 进 闪存 的 可 能 只 有 500MB 甚至 更 少 。 根 据 厂 方 的 测试 ,安装 Windows Vista 和 
Office 2007 的 全 过 程 共 需 要 写 人 25GB 数据 ,而 使 用 DuraWrite 技术 实际 写 入 仅 为 11GB。 
所 以 厂商 自称 其 写 人 放大 率 是 0. 5 ,奥秘 在 于 SandForce 在 将 数据 写 和 人 闪存 前 进行 了 压缩 。 
不 过 根据 厂 方 的 说 法 ,这 并 不 仅仅 是 压缩 这 么 简单 ,而 是 一 套 多 种 多 样 的 数据 缩 量 算 法 。 比 
如 当 数 据 存在 重复 时 , 仅 写 入 特殊 部 分 ; 当 数据 可 压缩 时 , 即 进 行 压 缩 再 存储 等 。 巾 于 写 人 
数据 变 少 ,SandForce 控制 器 不 需要 使 用 外 部 DRAM 缓存 ,而 是 在 芯片 内 直接 集成 了 较 大 
容量 的 缓存 。 

这 项 技术 确实 可 以 带 来 很 多 优点 ,特别 是 性 能 上 。 写 入 的 数据 少 了 ,相对 来 说 速度 自然 
就 翻 倍 了 ,而 读 取 操 作 同 样 如 此 。 因 此 ,数据 库 等 类 似 的 需要 高 吞吐 量 的 操作 都 可 以 获得 极 
佳 的 性 能 发 挥 。 当 然 ,SandForce 标 称 高 达 500MB/s 的 写 入 速度 只 是 在 最 好 情况 下 的 成 绩 
(数据 可 以 被 实时 压缩 ) 而 已 ,不 可 迷信 。 但 这 样 的 技术 也 有 弱点 , 当 需 要 写 入 的 数据 已 经 进 
行 过 压缩 时 (如 图 片 .视频 或 压缩 文件 ) ,其 算法 就 无 法 再 发 挥 理想 效果 。 

其 实 DuraWrite 是 包含 于 DuraClass 技术 之 中 的 一 个 组 件 。DuraClass 技术 包含 
RAISE、DuraWrite、.GC、ECC 等 技术 。RAISE 是 一 项 类 似 于 RAID5 的 功能 概 制 ,是 一 个 独 
立 的 元 余数 组 结构 ,这 个 功用 的 主要 目标 在 于 改进 故障 概率 ,保障 压缩 数据 的 安全 。 其 实 这 
项 技术 也 是 配合 DuraWrite 技术 而 运作 的 。 所 以 可 以 说 DuraWrite 是 DuraClass 技术 的 关 
键 ,也 是 SandForce 系列 主 控 的 灵魂 。 

(8) 坏 块 管理 

不 管 磨损 平衡 算法 如 何 优越 ,在 运作 中 都 会 碰 到 一 个 令 人 头痛 的 问题 , 那 就 是 坏 块 , 所 
以 一 个 SSD 必须 要 有 坏 块 管理 机 制 。 何 谓 坏 块 ? 即 一 个 NAND 块 里 包含 有 不 稳定 的 地 
址 ,不 能 保证 读 / 写 / 擦 的 时 候 数 据 的 准确 性 。 其 概念 和 传统 机 械 式 硬盘 的 坏 块 相似 ,如 
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图 2-27 所 示 。 















































人 四 辑 块 B: ” 坏 块 
图 物理 块 R: ”备用 块 
图 2-27 BBM 坏 块 管理 























坏 块 分 出 厂 坏 块 和 使 用 过 程 中 出 现 的 坏 块 ,与 机 械 式 硬盘 的 坏 块 表 一 样 (P 表 和 G 表 )， 
SSD 也 有 坏 块 表 。 出 厂 如 果 有 坏 块 ,在 坏 块 上 会 有 标记 ,所 以 很 容易 就 能 被 识别 ,后 期 使 用 
中 出 现 的 坏 块 就 要 靠 主 控制 器 的 能 力 了 。 一般 来 说 , 越 到 NAND 生命 的 后 期 (P/E 数 开始 
接近 理论 最 大 值 ) , 坏 块 就 会 开始 大 量 出 现 了 。NAND 出 厂 前 都 会 被 执行 擦 除 操作 ,厂商 会 
在 出 货 前 把 坏 块 标记 出 来 (厂商 会 在 坏 块 的 第 一 个 页 的 SA 区 上 打上 标记 )。 这 样 坏 块 管理 
软件 就 能 靠 监测 SA 区 标记 来 制作 坏 块 表 。SA 区 的 意思 是 页 中 4096 一 4319 的 区 域 ,用 户 
不 可 访问 ,主要 用 来 存放 ECC 算法 、 坏 块 信息 文件 系统 资料 等 。 由 于 在 使 用 中 会 产生 坏 
块 ,所 以 SSD 的 每 次 编程 / 擦 除 /复制 等 操作 后 都 要 检查 块 的 状态 。 对 颗粒 的 ECC 要 求 也 
要 达到 厂商 的 标准 以 上 ( 主 控 强 不 强 , 看 ECC 能 力也 是 一 个 参考 ) 。 

(9) ECC 

ECC 的 全 称 是 Error Checking and Correction, 是 一 种 用 于 Nand 的 差错 检测 和 修正 算 
法 。 由 于 NAND Flash 的 工艺 不 能 保证 NAND 在 其 生命 周期 中 保持 性 能 的 可 靠 ,因此 ,在 
NAND 的 生产 中 及 使 用 过 程 中 会 产生 坏 块 。 为 了 检测 数据 的 可 靠 性 ,在 应 用 NAND Flash 
的 系统 中 一 般 都 会 采用 一 定 的 坏 区 管理 机 制 , 而 管理 坏 区 的 前 提 是 能 比较 可 靠 地 进行 坏 区 
检测 。 如 果 操 作 时 序 和 电路 稳定 性 不 存在 问题 ,NAND Flash 出 错 的 时 候 一 般 不 会 造成 整 
个 Block 或 者 Page 不 能 读 取 或 者 全 部 出 错 , 而 是 整个 Page 中 只 有 一 个 或 几 个 bit 出 错 ,这 
时 候 ECC 就 能 发 挥 作 用 了 。 不 同 颗 粒 有 不 同 的 基本 ECC 要 求 ,不同 主 控制 器 支持 的 ECC 
能 力也 不 同 ,理论 上 说 主 控 越 强 ECC 能 力 越 强 。 

(10) 交错 操作 

交错 操作 可 以 成 倍 提升 NAND 的 传输 率 , 因 为 NAND 颗粒 封装 时 可 能 有 多 Die、 多 
Plane( 每 个 plane 都 有 4KB 寄存 器 ) ,Plane 操作 时 可 以 交叉 操作 (第 一 个 Plane 接 到 指令 
后 ,在 操作 的 同时 ,第 二 个 指令 已 经 发 送 给 了 第 二 个 plane, 以 此 类 推 ) ,达到 接近 2 倍 甚至 
4 倍 的 传输 能 力 (看 闪存 颗粒 支持 度 ) ,如 图 2-28 所 示 。 

(11) 断 电 保护 

这 是 英特尔 在 所 有 第 三 代 固 态 硬盘 中 重点 增加 的 一 项 功能 ,而 在 SandForce 的 方案 中 
作为 可 选项 提供 。SandForce 的 方案 是 配备 了 一 个 0. 09F 的 大 容量 电容 以 保证 断 电 之 后 数 
据 还 可 以 写 入 闪存 当中 ,防止 丢失 。 更 进一步 讲 , 还 可 以 多 电容 并 联 带 来 更 好 的 可 靠 性 ,就 
算 其 中 一 个 坏 掉 , 其 他 的 电容 还 可 以 正常 工作 。 

(12) SMART 监控 

SMAR T(Self-Monitoring Analysis and Reporting Technology) 中 文 的 意思 是 “自我 监 
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Source Plane 0 
Dest Plane0 
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Dest Plane 1 
Source Plane 2 
Dest Plane 2 
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Dest Plane 3 
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2-28 ”SSD 交错 操作 








测 、 分 析 和 报告 技术 ”, 可 以 用 来 预测 并 分 析 硬 盘 的 潜在 问题 。 这 是 一 项 延续 自传 统 机 械 式 
硬盘 的 技术 。 

硬盘 故障 分 为 忽然 性 和 渐进 性 两 种 。 

@O 忽然 性 : 没有 任何 迹象 ,很 难 预防 。 比 如 芯片 烧 了 、 硬 盘 摔 了 、 人 品 不 好 之 类 。 要 防 
止 只 有 多 做 备份 ,或 者 做 RAID 之 类 的 元 余 。 

@ 渐进 性 : 这 是 随 着 时 间 慢 慢 发 生 的 ,可 以 预先 感知 。 比 如 声音 出 现 异常 ,可 能 是 主 
轴 马 达 磨 损 ,硬盘 逐渐 老化 出 现 读 取 困难 等 ,在 SSD 上 主要 指 颗粒 磨损 度 ,不 可 修复 错误 数 
明显 增加 等 。 

对 于 渐进 性 的 故障 ,我 们 可 以 借助 SMART 数据 发 现 点 有 用 的 信息 。 但 是 需要 注意 的 
是 : 机 械 硬 盘 的 SMART 表 定 义 已 经 有 自己 的 标准 ,由 于 硬盘 厂 很 多 ,很 多 厂家 属性 的 名 字 
也 不 尽 相同 ,或 者 某 些 厂 牌 缺少 某 些 属性 ,但 是 同 个 ID 的 定义 是 相同 的 。 而 固态 硬盘 的 
SMART 表 定 义 则 目前 还 没有 统一 标准 .不 同 厂 家 甚至 不 同 主 控 都 有 可 能 出 现 相同 ID 的 不 
同 定义 ,所 以 用 一 般 的 SMART 软件 查看 是 没 任何 意义 的 ,虽然 可 以 看 到 值 ,但 是 这 个 值 对 
应 的 ID 解释 可 能 完全 不 是 那么 回 事 。 


2.3.3 SSD 与 HDD 的 比较 


全 面 将 SSD 和 HDD 进行 对 比 是 很 复杂 的 ,传统 的 HDD 性 能 评测 主要 关注 其 固有 的 
弱点 ,比如 寻 道 时 间 和 转速 。SSD 并 不 旋转 ,也 不 存在 寻 道 的 问题 ,故而 在 这 些 传统 测试 
中 ,可 以 取得 惊人 的 成 绩 。 但 是 ,SSD 有 其 自身 特有 的 弱点 ,比如 混合 读 写 、 垃 圾 回收 、 
ECC、 磨 损 平 衡 ,等 等 。 而 且 通 常 一 个 新 SSD 空 盘 的 性 能 会 比 使 用 了 一 年 之 后 、 包 含 很 多 数 
据 的 SSD 性 能 高 出 许多 。 所 以 面向 传统 HDD 的 性 能 测试 方法 并 不 适用 于 SSD。 

尽管 难以 简单 对 比 , 表 2-1 还 是 在 理论 上 给 出 两 者 的 差异 。 

表 2-1 SSD 与 HDD 各 项 参数 比较 
各 项 参数 SSD HDD 


由 于 没有 马达 和 转 臂 ,所 以 几乎 可 以 瞬间 完 | 可 能 需要 数秒 以 启动 马达 ,而 且 当 磁盘 
启动 时 间 成 。 同 时 从 休眠 模式 中 唤醒 大 约 只 需要 几 毫 | 量 非常 大 的 时 候 ,需要 依次 启动 以 防止 
秒 即 可 瞬间 电流 过 载 
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续 表 
各 项 参数 SSD HDD 
随机 访问 时 间 | 大 约 仅 需 0. 1 毫秒 ,因为 无 须 寻 首 大 约 需要 5 二 10 毫秒 
通常 比较 高 ,因为 磁头 需要 额外 的 时 间 
读 取 潜伏期 ”| 通常 很 短 , 因 为 直接 读 取 Re 
读 取 性 能 一 | 读 取 性 能 不 因数 据 在 SSD 上 的 存储 位 置 不 | 读 取 性 能 与 存放 在 磁盘 的 内 圈 还 是 外 圈 
致 性 同 而 不 同 有 关 , 也 与 文件 的 碎片 程度 有 关 
SSD 基本 不 需要 进行 碎片 整理 ,因为 读 取 连 | HDD 通常 需要 在 文件 碎片 达到 一 定 各 
豆 上 由理。 | 续 的 数据 并 不 明显 比 读 取 分 散 的 数据 决 。 并 | 度 后 进行 整理 ,否则 任 能 会 有 明显 下 降 。 
且 碎 片 整理 会 额外 增加 NAND 闪存 的 写 入 | 特别 是 在 含有 大 量 文件 的 情况 下 更 是 
次 数 ,从 而 降低 其 寿命 如 此 
HDD 有 明显 的 噪声 ,并 且 在 读 写 频 繁 的 
噪声 SSD 无 任何 噪声 se 
a || ni 了 着 时 间 的 扒 共 , 机 术科 术 率 全 过 
环境 敏感 性 ”| 对 振动 .磁场 . 碰 接 不 敏感 对 振动 磁场 . 碰 擅 敏感 
体积 和 重量 | 体积 小 .重量 轻 性 能 越 高 ,体积 和 重量 越 大 
ww wr | HDD 虽 然 有 多 个 巩 天 ,但 是 由 于 共享 同 
并 行 操作 。 | 多 数控 制 基 可 以 使 用 多 个 芯片 进行 并 发 恋 写 | 2 绑 有 多 个 赔 尖 人 半身 闻 坟 | 
基于 内存 的 SSD 有 写 人 寿命 限制 \ 且 一 旦 损 
写 人 寿命 | 坏 ,整个 SSD 的 数据 都 将 丢失 考 写 洪涛 利 陈 测 
NAND 闪存 的 存储 块 不 能 被 直接 履 盖 重 写 ， 
只 能 重新 写 人 先前 被 控 除 的 块 中 。 如 果 一 个 
软件 加 密 程序 对 已 经 存在 于 SSD 上 的 数据 
进行 加 密 ,那些 原始 的 \ 看 上 去 已 经 被 覆盖 掉 
地 所 安全 问题 | 的 原始 数据 实际 上 并 没有 被 覆盖 ,它们 依然 | HDD 可 以 直接 材 盖 掉 指 定 的 遍 区 ,因而 
可 以 被 读 取 , 从 而 造成 信息 泄露 。 但 是 SSD | 不 存在 这 个 问题 
自身 基于 硬件 的 加 密 装置 没有 这 个 问题 。 此 
外 ,也 不 能 简单 地 通过 覆盖 原文 件 的 办 法 来 
清除 原 有 的 数据 ,除非 该 SSD 有 内 建 的 安全 
删除 机 制 , 并 且 确实 已 经 被 启用 
单位 容量 成 本 | 贵 ,但 是 大 约 每 两 年 下 降 一 半 便宜 
最 大 存储 容量 | 小 ,但 是 大 约 每 两 年 可 翻 一 售 大 
读 / 写 性 能 | 低 端 SSD 的 读 取 速 度 远 高 于 写 人 速度 ,但 是 | HDD 的 读 取 速度 通常 比 写 人 速度 快 一 
对 称 高 端 产 品 的 读 写 速度 可 以 做 到 一 致 些 , 但 是 差距 并 不 很 大 
SSD 的 写 入 性 能 受 可 用 空白 块 数量 影响 很 
ARIM 与 可 用 | 大 。 先前 曾经 写 人 过 数据 且 现 在 未 被 使 用 的 | HDD 完全 没有 这 些 问题 ,其 性 能 不 会 因 
块 ,可 以 通过 TRIM 来 回收 ,使 其 成 为 可 用 | 为 多 次 读 写 而 出 现下 降 ,也 不 需要 进行 
的 空白 块 。 但 是 即使 经 过 TRIM 回收 的 块 ,| TRIM 操作 
其 性 能 依然 会 出 现下 降 
高 性 能 HDD 通常 需要 12 一 18W ,而 为 笔 
能 耗 即使 是 高 性 能 的 SSD 通常 其 能 耗 也 只 有 | 记 本 设计 的 节能 HDD 的 功 耗 通常 在 





HDD 的 1/2~1/3 





2~3W 
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NCQ(Native Command Queuing) 与 TCQ(Tagged Command Queuing) 都 是 设计 为 通 
过 把 计算 机 发 往 硬盘 的 指令 做 重新 排序 从 而 提高 硬盘 性 能 的 技术 。NCQ 技术 在 300MB/s 
的 Serial ATA 下 规 格 中 引入 ,针对 的 是 主流 的 硬盘 产品 ,而 TCQ 技术 是 在 SCSI2 规格 中 
引入 (ATA-4 标准 中 也 有 采用 ) ,针对 的 是 服务 器 以 及 企业 级 硬盘 产品 。 

要 使 用 NCQ、TCQ 技术 ,芯片 组 硬盘 接口 和 硬盘 产品 本 身 都 必须 支持 才 行 ,也 就 是 说 ， 
如 果 你 购买 的 一 款 新 硬盘 并 不 支持 NCQ, 即 使 主板 是 最 新 的 支持 NCQ 的 ,也 不 能 够 使 用 
这 个 功能 从 而 提高 性 能 。 


2.3.4 SSD 性 能 优势 


1. 响应 时 间 短 

传统 硬盘 的 机 械 特性 导致 大 部 分 时 间 浪 费 在 寻 道 和 机 械 延 迟 上 ,数据 传输 效率 受到 严 
重 制约 。 而 SSD 硬盘 内 部 没有 机 械 运动 部 件 , 省 去 了 寻 道 时 间 和 机 械 延迟 ,可 更 快捷 地 响 

2. 读 写 效率 高 

机 械 硬 盘 在 进行 随机 读 写 操作 时 ,磁头 不 停 地 移动 ,导致 读 写 效率 低下 ,而 SSD 通过 内 
部 控制 器 计算 出 数据 的 存放 位 置 ,并 进行 读 写 操作 ,省 去 了 机 械 操作 时 间 , 大 大 提高 了 读 写 
效率 。4KB 随机 读 写 情况 下 : FC 硬盘 的 性 能 为 400/400 IOPS,SSD 硬盘 的 性 能 为 26000/ 
5600 IOPS, 如 图 2-29 所 示 。 

SSD 不 含 高 速 旋转 的 机 械 结构 部 件 , 可 经 得 住 严 苛 的 环境 考验 。 以 华为 SSD 硬盘 为 
例 : HSSD 可 承受 振动 加 速度 16. 4G, 机 械 硬 盘 一 般 为 0. 5G 以 下 。HSSD 抗 冲击 1500G， 
机 械 硬 盘 一 般 为 70G 左右 。 








寻 道 时 间 及 机 械 延 迟 时 间 A 
传统 HDD 存 储 系统 SSD 存 储 系统 


(a) SSD 技 术 性 能 优势 
图 2-29 SSD 性 能 优势 
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SSD 硬 盘 机 械 硬 盘 


a 












区 


2 块 250 块 


全 


4000 
人 7 约 400 倍 
2000 


SSD TFTCIIDD 
(b) 热 图 对 比 (c) 100KB 读 IOPS 的 功 耗 对 比 
图 2-29 ( 续 ) 





HSSD 使 用 专用 设备 做 过 如 下 测试 : 静 压 试验 .跌落 试验 、 随 机 振动 试验 ` 冲 击 试验 、 碰 


SSD 可 用 在 一 些 环 境 较 恶 劣 的 场合 ,如 高 温 高 湿 、 强 震 等 恶劣 环境 下 使 用 ,比如 很 多 工 
业 级 应 用 要 求 SSD 固态 硬盘 做 到 一 20 一 70C 和 一 40 一 855C 的 宽 温 要 求 。 


2.3.5 SSD 在 存储 中 的 应 用 


(1) 二 八 原则 

用 户 需 要 频繁 改动 或 读 写 的 数据 ,一 般 占 存储 总 量 的 20% , 称 为 热 数据 , 对 应 于 A 级 应 用 。 

(2) 分 级 存储 

将 热 数据 存放 在 SSD 上 ,B 级 和 C 级 应 用 的 数据 存放 在 高 速 HDD 和 一 般 HDD 上 , 提 
升 性 能 并 减少 投资 ,如 图 2-30 所 示 。 


访问 频率 
A 级 应 用 :以 高 并 发 随机 读 取 为 主 , 如 数据 库 应 用 
B 级 应 用 :顺序 读 写 的 大 容量 文件 图 片 ` 流 媒体 等 
C 级 应 用 :以 备份 数据 为 主 , 或 极 少 使 用 的 数据 
C 
数据 分 布 
SSD 介 质 FC/SAS 磁 盘 。 ”SATA/NL-SAS 磁 带 


图 2-30 SSD 在 存储 中 的 应 用 


51 


数据 安全 与 灾 备 管理 





2.4 存储 主机 应 用 系统 


2.4.1 主机 硬件 系统 


主机 的 核心 组 件 由 CPU.、 存 储 设备 .1/O 设备 三 个 部 分 组 成 ,这 三 个 部 分 通过 总 线 互 联 
并 通信 ,如 图 2-31 所 示 。 

1. CPU 

CPU 的 运作 原理 可 分 为 四 个 阶段 : 提取 (Fetch) 、 解 码 (Decode) ,执行 (Execute) 和 写 回 
(Write Back)。CPU 从 存储 器 或 高 速 缓冲 存储 器 中 取出 指令 , 放 入 指令 寄存 器 ,对 指令 译 
码 ,执行 指令 ,如 图 2-32 所 示 。 





存储 设备 IO 设备 





数据 信号 
一 控制 信号 














图 2-31 主机 硬件 系统 图 2-32 CPU 运行 原理 


(1) CISC 指令 集 

CISC(Complex Instruction Set Computer) 指 令 集 也 称 为 复杂 指令 集 。 英 特 尔 生产 的 
X86 系列 CPU 及 其 兼容 CPU ,如 AMD、VIA 都 是 属于 CISC 的 范畴 。 由 于 Intel X86 系列 
及 其 兼容 CPU 都 使 用 X86 指令 集 , 所 以 就 形成 了 今天 庞大 的 X86 系列 及 兼容 CPU 阵容 。 

(2) RISC 指令 集 

RISC(Reduced Instruction Set Computing) 即 “精简 指令 集 ”。 它 是 在 CISC 指令 系统 
基础 上 发 展 起 来 的 。RISC 指令 系统 更 加 适合 高 档 服务 器 的 操作 系统 UNIX,Linux 也 属于 
类 似 UNIX 的 操作 系统 。RISC 型 CPU 与 Intel 和 AMD 的 CPU 在 软件 和 硬件 上 都 不 兼 
容 。 在 中 高 档 服务 器 中 采用 RISC 指令 的 CPU 主要 有 以 下 几 类 : PowerPC 处 理 器 ,SPARC 
处 理 嚣 .PA-RISC 处 理 器 .MIPS 处 理 器 .Alpha 处 理 器 。 

(3) EPIC 指令 集 

EPIC(Explicitly Parallel Instruction Computers, 精 确 并 行 指令 计算 机 ) 可 以 说 是 Intel 
的 处 理 器 迈 向 RISC 体系 的 重要 步骤 。Intel 采用 EPIC 技术 的 服务 器 CPU 是 安 腾 ,也 是 
IA-64 系列 中 的 第 一 款 。 微 软 也 已 开发 了 64 位 的 操作 系统 ,在 软件 上 加 以 支持 。 

2. 内 存 分 类 

SDR(synchronous) 指 同步 动态 随机 存 取 存 储 器 ,这 种 内 存 的 特性 是 在 一 个 内 存 时 钟 周 
期 中 ,在 一 个 方 波 上 升 沿 时 进行 一 次 操作 ( 读 或 写 ) ,一 般 有 两 个 缺口 。 

DDR(Double Data Rate) 是 SDRAM 的 更 新 换代 产品 ,允许 在 时 钟 脉冲 的 上 升 沿 和 下 
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降 沿 传输 数据 ,这 样 不 需要 提高 时 钟 的 频率 就 能 加 倍 提高 SDRAM 的 速度 。DDR 内 存 不 向 
后 兼容 SDRAM。 

DDR2 采用 和 DDR1 内 存 一 样 的 指令 ,工作 频率 比 DDR1 更 高 ,DDR2 的 缺口 比较 靠 
中 间 。 

DDR3 与 DDR2 的 基础 架构 并 没有 本 质 的 不 同 ,DDR3 能 提供 更 高 的 外 部 数据 传输 率 ， 
以 及 更 先进 的 地 址 /命令 与 控制 总 线 的 拓扑 架构 ,在 保证 性 能 的 同时 将 能 耗 进一步 降低 。 

目前 普及 的 是 DDR3 内 存 , 主 要 参数 有 容量 、 主 频 ,带宽 。 

3. 总 线 

总 线 是 计算 机 内 部 各 个 组 件 之 间或 者 在 不 同 的 计算 机 之 间 进 行 数据 传输 的 公共 通路 ， 
如 图 2-33 所 示 。 





9 


® 


me 
| 
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1O 控 制 器 网 络 适配器 


2-33 计算 机 之 间 进 行 数据 传输 
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CPU 通过 系统 总 线 读 取 内 存 中 的 指令 ,通过 指令 的 计算 结果 对 内 存 进 行 读 写 操作 ， 
CPU 和 内 存 之 间 通 过 高 速 的 北桥 芯片 互联 。 

主机 总 线 指 一 些 适 配器 连接 到 南 桥 的 总 线 , 比 如 显卡 、 网 卡 .RAID 卡 .FC HBA 卡 等 。 

1/O 总 线 指 适配器 与 外 部 设备 相连 的 总 线 , 比 如 硬盘 、U 盘 、 存 储 器 等 。 

4. PCI-E 总 线 

Intel 在 2001 年 春季 正式 公布 了 旨 在 取代 PCI 总 线 的 第 三 代 1/O 技术 ,最 后 却 被 正式 
命名 为 PCI-Express,Express 意思 是 高 速 .特别 快 的 意思 。 

2002 年 7 月 23 日 .PCLSIG 正式 公布 了 PCI Express 1.0 规范 ,并 且 根 据 开发 蓝图 ,在 
2006 年 的 时 候 正式 推出 PCI Express 2.0 规范 。 

经 历 过 三 代 半 (AGP 总 线 只 是 一 种 增强 型 的 PCI 总 线 ) 的 发 展 ,PC 的 外 部 总 线 终于 发 
展 到 现在 的 PCI-E 2. 0 ,提供 了 比 以 往 总 线 大 得 多 的 带宽 。 

目前 的 主流 总 线 是 X8 和 X16。 

5. PCI-E 的 优势 

(1) 点 对 点 独 享 带宽 

PCI 是 所 有 设备 共享 同一 条 总 线 资源 ,PCIE 采用 点 对 点 技术 ,芯片 之 间 用 接口 连 线 ， 
设备 之 间 用 数据 电缆 。 
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(2) 双 通 道 ,高 速率 

类 似 于 全 双 工 模式 ,速度 大 大 提升 ,1.0 版 本 的 PCIE 在 每 个 信道 单方 向 2. 5Gbps 的 传 
输 速率 作为 起 步 , 物 理 上 可 达到 1 一 32 个 可 选 信道 。 

(3) 热 插 拔 热 交换 

PCIE 总 线 接口 插 槽 中 含有 “ 热 插 拔 检 测 信 号 ”, 所 以 可 以 像 USB 总 线 那样 进行 热 插 拔 
和 热 交换 。 

(4) 多 点 虚拟 通道 

PCI-E 总 线 技术 在 每 一 个 物理 通道 中 也 支持 多 点 虚拟 通道 ,理论 上 每 一 个 单 物理 通道 
中 可 以 有 8 条 虚拟 通道 进行 独立 的 通信 控制 ,而 且 每 个 通信 的 数据 包 都 可 以 定义 不 同 
的 QoS。 

(5) 兼容 PCI 

以 前 的 PCI 可 以 在 PCIE 这 一 模式 下 运行 ,为 用 户 提供 了 一 个 平滑 的 升级 平台 ,但 要 
注意 的 是 不 兼容 目前 的 AGP 接口 。 


2.4.2 主机 软件 系统 


1. 逻辑 卷 管理 器 

在 主机 软件 系统 中 ,操作 系统 上 层 的 应 用 软件 用 于 满足 用 户 不 同 领域 ,不 同业 务 的 应 用 
需求 ,操作 系统 实现 对 计算 机 硬件 与 软件 资源 的 管理 ,并 提供 用 户 与 系统 交互 的 操作 界面 。 
不 同 的 操作 系统 使 用 其 各 自 的 文件 系统 ,文件 系统 建立 在 逻辑 卷 的 基础 上 。 

(1) 逻辑 卷 

逻辑 卷 改变 了 数据 的 存储 方式 ,使 数据 的 存储 更 具有 灵活 性 ,一 个 迎 辑 卷 可 以 跨越 多 个 
物理 磁盘 ,数据 存储 在 物理 上 可 以 是 不 连续 的 。 逻 辑 卷 建立 在 卷 组 之 上 , 卷 组 中 的 空间 可 以 
建立 多 个 逻辑 卷 ,并 且 逻 辑 卷 可 以 随意 从 卷 组 的 空闲 空间 中 增 减 ,逻辑 卷 可 以 属于 一 个 卷 
组 ,也 可 以 属于 不 同 的 多 个 卷 组 。 

(2) 卷 组 

卷 组 建立 在 物理 卷 之 上 ,一 个 卷 组 中 可 以 包含 一 个 物理 卷 组 或 者 多 个 物理 卷 。 

(3) 物理 卷 

物理 卷 在 逻辑 卷 管理 器 中 属于 最 底层 ,任何 的 逻辑 卷 和 卷 组 都 必须 依靠 物理 卷 来 建立 ， 
物理 卷 可 以 是 一 个 完整 的 硬盘 ,也 可 以 是 硬盘 中 的 一 个 分 区 。 

2. 文件 系统 

文件 系统 是 指 把 文件 存储 于 硬盘 时 所 必须 使 用 的 数据 结构 及 硬盘 数据 的 管理 方式 ,如 
图 2-34 所 示 。 

为 了 访问 硬盘 中 的 数据 ,就 必须 在 扇 区 之 间 建 立 联系 ,也 就 是 需要 一 种 逻辑 上 的 数据 存 
储 结构 。 建 立 这 种 逻辑 结构 就 是 文件 系统 要 做 的 事情 ,在 硬盘 上 建立 文件 系统 的 过 程 通常 
称 为 “格式 化 ”。 

硬盘 数据 的 管理 通过 文件 分 区 表 记 录 数 据 的 地 址 ,然后 通过 地 址 记录 实现 对 数据 的 
读 取 。 
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2-34 文件 系统 


3. 操作 系统 的 主要 功能 

(1) 进程 管理 

管理 进程 间 的 通信 ,进程 异常 终止 以 及 进程 死 锁 等 。 

(2) 内 存 管理 

用 于 寻找 可 用 内 存 空 间 , 并 配置 与 释放 内 存 空 间 等 。 

(3) 网 络 通信 

提供 通信 协议 的 协商 。 

(4) 安全 机 制 

操作 系统 提供 外 界 直 接 或 间接 使 用 资源 的 管道 ,提供 一 定 的 安全 机 制 来 控制 不 同人 员 
的 使 用 权限 。 

(5) 用 户 界面 

提供 图 形 化 的 界面 ,方便 人 机 交互 。 

(6) 驱动 程序 

通过 驱动 程序 来 屏蔽 各 厂商 设备 的 差异 ,操作 系统 提供 统一 的 接口 来 管理 设备 。 

4. 主机 存储 应 用 

如 图 2-35 所 示 ,左边 为 主机 内 部 的 存储 /1O。 大 部 分 W/O 开始 于 要 访问 数据 的 应 用 


应 用 通常 不 管 存储 的 细节 ,而 是 直接 调用 由 操作 系统 提供 的 系统 调用 接口 ,然后 由 文件 系统 


为 数据 提供 逻辑 地 址 和 在 磁盘 上 存储 的 物理 地 址 的 映射 ,再 通过 设备 驱动 层 , 主 要 是 SCSI 
协议 的 操作 ,将 数据 存储 到 硬盘 上 。 
图 2-35 的 右边 为 主机 通过 网 络 的 存储 IIO。 首 先 IO 由 应 用 发 起 ,然后 经 过 操作 系 


统 ,由 文件 系统 提供 数据 的 逻辑 地 址 和 存储 的 物理 地 址 的 对 应 关系 ,经 由 设备 驱动 ,到 达 
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图 2-35 主机 存储 应 用 
FC HBA 卡 或 者 网 卡 ,到 达 存 储 端的 FC 接口 或 者 网 络 接口 ,将 数据 存储 到 存储 设备 上 。 


2.4.3 主机 的 管理 


一 般 的 主机 管理 方式 为 本 地 管理 ,而 服务 器 大 多 数 运行 在 专用 的 机 房 或 者 数据 中 心 , 为 
了 实现 对 存放 在 非 本 地 工作 环境 的 服务 器 远程 管理 ,开发 了 IPMI 技术 ,通过 IPMI 技术 可 
远程 连接 至 服务 器 并 对 服务 器 进行 管理 。 

智能 平台 管理 接口 (IPMI) 是 一 种 开放 标准 的 硬件 管理 接口 规格 ,定义 了 艇 入 式 管 理 
子 系统 进行 通信 的 特定 方法 。IPMI 信息 通过 基板 管理 控制 器 (BMC) 进行 交流 。 使 用 低级 
硬件 智能 管理 而 不 使 用 操作 系统 进行 管理 。 

基于 Intel 结构 的 企业 系统 中 所 使 用 的 外 围 设备 采用 了 一 种 工业 标准 ,该 标准 由 英 特 
尔 . 惠 普 `NEC、 美 国 戴尔 电脑 和 SuperMicro 等 公司 制定 。 用 户 可 以 利用 IPMI 监视 服务 器 
的 物理 健康 特征 ,如 温度 .电压 .风扇 工作 状态 .电源 状态 等 。 而 且 更 为 重要 的 是 IPMI 是 一 
个 开放 的 免费 标准 ,用 户 无 须 为 使 用 该 标准 而 支付 额外 的 费用 。 

1998 年 Intel.DELL、HP 及 NEC 共同 提出 IPMI 规格 ,可 以 透 过 网 络 远 端 控制 温度 、 
电压 。 

2001 年 IPMI 从 1.0 版 改版 至 1.5 版 ,新 增 PCI Management Bus 等 功能 。 

2004 年 Intel 发 表 了 IPMI 2. 0 的 规格 ,能够 向 下 相 容 IPMI 1.0 及 1.5 的 规格 。 新 增 
了 Console Redirection ,可 以 通过 Port、Modem 以 及 Lan 远 端 管理 伺服 器 ,并 加 强 了 安全 、 
VLAN 和 刀锋 伺 器 的 支援 性 。 

IPMI 是 智能 型 平台 管理 接口 (Intelligent Platform Management Interface) 的 缩写 ,是 
管理 基于 Intel 结构 的 企业 系统 中 所 使 用 的 外 围 设备 采用 的 一 种 工业 标准 。 

1. IPMI 的 工作 原理 

IPMI 的 核心 是 一 个 专用 芯片 /控制 器 ( 叫 作 服务 器 处 理 器 或 基板 管理 控制 器 (BMC))， 
其 并 不 依赖 于 服务 器 的 处 理 器 .BIOS 或 操作 系统 来 工作 ,是 一 个 单独 在 系统 内 运行 的 无 代 
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理 管理 子 系统 。IPMI 良好 的 自治 特性 便 克服 了 以 往 基 于 操作 系统 的 管理 方式 所 受 的 限制 ， 
例如 操作 系统 不 响应 或 未 加 载 的 情况 下 其 仍然 可 以 进行 开关 机 信息 提取 等 操作 ,如 图 2-36 
所 示 。 














区 | 于 


2-36 IPMI 的 工作 原理 


























在 工作 时 ,所 有 的 IPMI 功能 都 是 向 BMC 发 送 命令 来 完成 的 ,命令 使 用 IPMI 规范 中 
规定 的 指令 ,BMC 接收 并 在 系统 事件 日 志 中 记录 事件 消息 ,维护 描述 系统 中 传感器 情况 的 
传感器 数据 记录 。 在 需要 远程 访问 系统 时 ,IPMI 新 的 LAN 上 串 行 (SOL) 特性 很 有 用 。 
SOL 改变 IPMI 会 话 过 程 中 本 地 串口 的 传送 方向 ,从 而 提供 对 紧急 管理 服务 、Windows 专 
用 管理 控制 台 或 Linux 串 行 控制 台 的 远程 访问 。BMC 通过 在 LAN 上 改变 传送 给 串 行 端 
口 的 信息 的 方向 来 做 到 这 点 ,提供 了 一 种 与 厂商 无 关 的 远程 查看 启动 .操作 系统 加 载 器 或 紧 
急 管 理 控制 台 来 诊断 和 维修 故障 的 标准 方式 。 

2. 查看 BMC IP 

在 不 知道 BMC 管理 IP 的 情况 下 ,可 以 进入 BIOS 查看 ,不 同 的 服务 器 主板 位 置 可 能 会 
不 一 样 ,例如 在 华为 设备 下 ,一 般 在 以 下 位 置 ,如 图 2-37 所 示 。 


Change BC User Password 





2-37 设备 的 BMC 信息 


(1) 选择 Advanced 一 IPMI BMC Configuration 命令 , 按 Enter 键 , 进 入 IPMI BMC 
Configuration 界面 。 


(2) 选择 BMC Configuration , 按 Enter 键 ,进入 BMC Configuration 界面 .显示 BMC 
IP 信息 。 
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3. 服务 器 系统 启动 选项 

系统 第 一 启动 设备 选项 信息 包括 硬盘 、 光 驱 、 软 驱 / 可 拨 插 移动 设备 .PXE (Pre-boot 
Execution Environment) 及 未 配置 。 该 设置 为 一 次 生效 ,系统 在 下 次 启动 后 该 设置 将 失效 ， 
如 图 2-38 所 示 。 
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图 2-38 ”服务 器 系统 启动 


(1) 硬盘 : 表示 强制 从 硬盘 启动 系统 。 

(2) 光驱 : 表示 强制 从 CD/DVD 启动 系统 。 

(3) 软驱 /可 拔 插 移 动 设备 : 表示 强制 从 软驱 或 可 拔 插 移 动 设 备 上 启动 系统 。 

(4) PXE: 表示 强制 从 PXE 上 启动 系统 。 

(5) 未 配置 : 表示 不 进行 强制 设置 , 按 BIOS 默认 方式 启动 系统 ,如 图 2-39 所 示 。 

存储 系统 从 来 都 不 是 一 个 对 的 ,封闭 的 系统 。 存 储 系统 始终 是 为 应 用 系统 提供 存储 服 
务 ,依赖 于 应 用 系统 存在 的 子 系统 。 应 用 系统 通常 通过 服务 器 对 用 户 提供 服务 。 服 务 器 是 
指 在 网 络 环境 下 运行 相应 的 应 用 软件 ,为 网 络 用 户 提供 信息 资源 共享 和 各 种 服务 的 一 种 高 
性 能 计算 机 。 
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图 2-39 启动 服务 器 系统 
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2-39 ( 续 ) 


2.5 存储 中 应 用 数据 库 


数据 库 (Database) 是 按照 数据 结构 来 组 织 、 存 储 和 管理 数据 的 仓库 , 它 产生 于 1950 年 ， 
随 着 信息 技术 和 市 场 的 发 展 ,特别 是 20 世纪 90 年 代 以 后 ,数据 管理 不 再 仅仅 是 存储 和 管理 
数据 ,而 转变 成 用 户 所 需要 的 各 种 数据 管理 的 方式 。 数 据 库 有 很 多 种 类 型 ,从 最 简单 的 存储 
各 种 数据 的 表格 到 能 够 进行 海量 数据 存储 的 大 型 数据 库 系统 都 在 各 个 方面 得 到 了 广泛 的 
应 用 。 

在 信息 化 社会 ,充分 有 效 地 管理 和 利用 各 类 信息 资源 ,是 进行 科学 研究 和 决策 管理 的 前 
提 条 件 。 数 据 库 技术 是 管理 信息 系统 、 办 公 自动 化 系统 ,决策 支持 系统 等 各 类 信息 系统 的 核 
心 部 分 ,是 进行 科学 研究 和 决策 管理 的 重要 技术 手段 。 


2.5.1 数据 库 的 基本 概念 


数据 库 ,简单 来 说 是 本 身 可 视 为 电子 化 的 文件 柜 一 一 存储 电子 文件 的 处 所 ,用 户 可 以 对 
文件 中 的 数据 进行 新 增 查询 更新、 删除 等 操作 。 

数据 库 指 的 是 以 一 定 方式 储存 在 一 起 、 能 被 多 个 用 户 共享 `. 具 有 尽 可 能 小 的 元 余 度 .与 
应 用 程序 彼此 独立 的 数据 集合 。 

在 经 济 管理 的 日 常 工作 中 ,常常 需要 把 某 些 相关 的 数据 放 进 这 样 的 “仓库 ”, 并 根据 管理 
的 需要 进行 相应 的 处 理 。 

例如 ,企业 或 事业 单位 的 人 事 部 门 常常 要 把 本 单位 职工 的 基本 情况 (职工 号 、 姓 名 、 年 
龄 ,性别 、 籍 贯 .工资 .简历 等 ) 存 放 在 表 中 ,这 张 表 就 可 以 看 成 是 一 个 数据 库 。 有 了 这 个 “ 数 
据 仓库 ”就 可 以 根据 需要 随时 查询 某 职工 的 基本 情况 .也 可 以 查询 工资 在 某 个 范围 内 的 职工 
人 数 等 。 这 些 工 作 如 果 都 能 在 计算 机 上 自动 进行 , 那 我 们 的 人 事 管 理 就 可 以 达到 极 高 的 水 
平 。 此 外 ,在 财务 管理 ,仓库 管 理 . 生 产 管理 中 也 需要 建立 众多 的 这 种 “数据 库 ”, 使 其 可 以 利 
用 计算 机 实现 财务 .仓库 .生产 的 自动 化 管理 。 

数据 库 是 依照 某 种 数据 模型 组 织 起 来 并 存放 二 级 存储 器 中 的 数据 集合 。 这 种 数据 集合 
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具有 如 下 特点 : 尽 可 能 不 重复 ,以 最 优 方式 为 某 个 特定 组 织 的 多 种 应 用 服务 ,其 数据 结构 独 
立 于 使 用 它 的 应 用 程序 ,对 数据 的 增 、 删 \ 改 、 查 由 统一 tt 从 发 展 的 历史 
看 ,数据 库 是 数据 管理 的 高 级 阶段 , 它 是 由 文件 管理 系统 发 展 起 来 的 。 


2.5.2 数据 库 处 理 系统 


数据 库 是 一 个 单位 或 是 一 个 应 用 领域 的 通用 数据 处 理 系统 , 它 存储 的 是 属于 企业 
和 事业 部 门 、 团 体 和 个 人 的 有 关 数 据 的 集合 。 数 据 库 中 的 数据 是 从 全 局 观点 出 发 建立 
的 , 按 一 定 的 数据 模型 进行 组 织 、 描 述 和 存储 。 其 结构 基于 数据 间 的 自然 联系 ,从 而 可 
提供 一 切 必要 的 存 取 路 径 , 且 数据 不 再 针对 某 一 应 用 ,而 是 面向 全 组 织 ,具有 整体 的 结 
构 化 特征 。 

数据 库 中 的 数据 是 为 众多 用 户 所 共享 其 信息 而 建立 的 ,已 经 摆脱 了 具体 程序 的 限制 和 
制约 。 不 同 的 用 户 可 以 按 各 自 的 用 法 使 用 数据 库 中 的 数据 ;多 个 用 户 可 以 同时 共享 数据 库 
中 的 数据 资源 , 即 不 同 的 用 户 可 以 同时 存 取 数 据 库 中 的 同一 个 数据 。 数 据 共 享 性 不 仅 满足 
了 各 用 户 对 信息 内 容 的 要 求 , 同 时 也 满足 了 各 用 户 之 间 信 息 通信 的 要 求 。 


2.5.3 数据 库 的 基本 结构 


数据 库 的 基本 结构 分 三 个 层次 ,反映 了 观察 数据 库 的 三 种 不 同 角度 。 

(1) 物理 数据 层 

它 是 数据 库 的 最 内 层 , 是 物理 存储 设备 上 实际 存储 的 数据 的 集合 。 这 些 数据 是 原始 数 
据 , 是 用 户 加 工 的 对 象 ,由 内 部 模式 描述 的 指令 操作 处 理 的 位 串 ,字符 和 字 组 成 。 

(2) 概念 数据 层 

它 是 数据 库 的 中 间 一 层 , 是 数据 库 的 整体 逻辑 表示 。 指 出 了 每 个 数据 的 逻辑 定义 及 数 
据 间 的 逻辑 联系 ,是 存储 记录 的 集合 。 它 所 涉及 的 是 数据 库 所 有 对 象 的 逻辑 关系 ,而 不 是 它 
们 的 物理 情况 ,是 数据 库 管 理 员 概 念 下 的 数据 库 。 

(3) 用 户 数据 层 

它 是 用 户 所 看 到 和 使 用 的 数据 库 ,表示 了 一 个 或 一 些 特定 用 户 使 用 的 数据 集合 , 即 逻辑 
记录 的 集合 。 

数据 库 不 同 层次 之 间 的 联系 是 通过 映射 进行 转换 的 。 


2.5.4 数据 库 的 主要 特点 


(1) 实现 数据 共享 

数据 共享 包含 所 有 用 户 可 同时 存 取 数据 库 中 的 数据 ,也 包括 用 户 可 以 用 各 种 方式 通过 
接口 使 用 数据 库 ,并 提供 数据 共享 。 

(2) 减少 数据 的 宛 余 度 

同文 件 系 统 相 比 ,由 于 数据 库 实现 了 数据 共享 ,从 而 避免 了 用 户 各 自 建立 应 用 文件 。 减 
少 了 大 量 重复 数据 ,减少 了 数据 元 余 ,维护 了 数据 的 一 致 性 。 

(3) 数据 的 独立 性 

数据 的 独立 性 包括 逻辑 独立 性 (数据 库 的 逻辑 结构 和 应 用 程序 相互 独立 ) 和 物理 独立 性 
(数据 物理 结构 的 变化 不 影响 数据 的 逻辑 结构 )。 
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(4) 数据 实现 集中 控制 

文件 管理 方式 中 ,数据 处 于 一 种 分 散 的 状态 .不 同 的 用 户 或 同一 用 户 在 不 同 处 理 中 其 文 
件 之 间 毫 无 关系 。 利 用 数据 库 可 对 数据 进行 集中 控制 和 管理 ,并 通过 数据 模型 表示 各 种 数 
据 的 组 织 以 及 数据 间 的 联系 。 

(5) 数据 保持 一 致 性 和 可 维护 性 ,以 确保 数据 的 安全 性 和 可 靠 性 

主要 包括 : 安全 性 控制 : 以 防止 数据 丢失 ,错误 更 新 和 越权 使 用 ; @ 完 整 性 控制 : 保 
证 数据 的 正确 性 有 效 性 和 相 容 性 ; @@ 并 发 控制 : 使 在 同一 时 间 周 期 内 ,允许 对 数据 实现 多 
路 存 取 ,又 能 防止 用 户 之 间 的 不 正常 交互 作用 。 

(6) 故障 恢复 

由 数据 库 管理 系统 提供 一 套 方法 .可 及 时 发 现 故 障 和 修复 故障 ,从 而 防止 数据 被 破坏 。 
数据 库 系 统 能 尽快 恢复 数据 库 系 统 运行 时 出 现 的 故障 ,可 能 是 物理 上 或 是 逻辑 上 的 错误 。 
比如 对 系统 的 误 操作 造成 的 数据 错误 等 。 


2.5.5 数据 库 的 结构 模型 


数据 库 通 常 分 为 层次 式 数 据 库 、 网 络 式 数据 库 和 关系 式 数据 库 三 种 。 而 不 同 的 数据 库 
是 按 不 同 的 数据 结构 来 联系 和 组 织 的 。 

1. 数据 结构 模型 

(1) 数据 结构 

所 谓 数据 结构 是 指数 据 的 组 织 形式 或 数据 之 间 的 联系 。 如 果 用 D 表示 数据 ,用 RR 表示 
数据 对 象 之 间 存 在 的 关系 集合 , 则 将 DS= CD,R) 称 为 数据 结构 。 

例如 , 设 有 一 个 电话 号 码 敌 , 它 记录 了 nn 个 人 的 名 字 和 相应 的 电话 号 码 。 为 了 方便 地 查 
找 某 人 的 电话 号 码 , 将 人 名 和 号 码 按 字典 顺序 排列 ,并 在 名 字 的 后 面 跟 随 着 对 应 的 电话 号 
码 。 这 样 , 若 要 查找 某 人 的 电话 号 码 (假定 他 的 名 字 的 第 一 个 字母 是 Y) ,那么 只 需 查 找 以 
YY 开头 的 那些 名 字 就 可 以 了 ,该 例 中 ,数据 的 集合 D 就 是 人 名 和 电话 号 码 , 它 们 之 间 的 联系 
R 就 是 按 字典 顺序 排列 的 ,其 相应 的 数据 结构 就 是 DS=(CD,R), 即 一 个 数组 。 

(2) 数据 结构 类 型 

数据 结构 又 分 为 数据 的 逻辑 结构 和 数据 的 物理 结构 。 

数据 的 逻辑 结构 是 从 逻辑 的 角度 ( 即 数 据 间 的 联系 和 组 织 方式 ) 来 观察 数据 ,分 析 数 据 ， 
与 数据 的 存储 位 置 无 关 ; 数 据 的 物理 结构 是 指数 据 在 计算 机 中 存放 的 结构 , 即 数据 的 迎 辑 结 
构 在 计算 机 中 的 实现 形式 ,所 以 物理 结构 也 被 称 为 存储 结构 。 

这 里 只 研究 数据 的 逻辑 结构 ,并 将 反映 和 实现 数据 联系 的 方法 称 为 数据 模型 。 

比较 流行 的 数据 模型 有 三 种 , 即 按 图 论 理论 建立 的 层次 结构 模型 和 网 状 结构 模型 以 及 
按 关系 理论 建立 的 关系 结构 模型 。 

2. 层次 、 网 状 和 关系 数据 库 系统 

(1) 层次 结构 模型 

层次 结构 模型 实质 上 是 一 种 有 根 节 点 的 定向 有 序 树 (在 数学 中 * 树 ”被 定义 为 一 个 无 回 
的 连通 图 )。 比 如 ,高 等 学 校 的 组 织 结构 图 像 一 棵 树 , 校 部 就 是 树 根 ( 称 为 根 节点 ) ,各 系 、 专 
业 ` 教 师 , 学 生 等 为 枝 点 ( 称 为 节点 ), 树 根 与 枝 点 之 间 的 联系 称 为 边 , 树 根 与 边 之 比 为 1 : N， 
即 树 根 只 有 一 个 ,树枝 有 N 个 。 
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按照 层次 模型 建立 的 数据 库 系统 称 为 层次 模型 数据 库 系统 。IMS (Information 
Management System) 是 其 典型 代表 。 

(2) 网 状 结构 模型 

按照 网 状 数据 结构 建立 的 数据 库 系统 称 为 网 状 数据 库 系 统 , 其 典型 代表 是 DBTG 
(Database Task Group) 。 用 数学 方法 可 将 网 状 数据 结构 转化 为 层次 数据 结构 。 

(3) 关系 结构 模型 

关系 式 数据 结构 把 一 些 复杂 的 数据 结构 归结 为 简单 的 二 元 关系 ( 即 二 维 表格 形式 )。 例 
如 某 单位 的 职工 关系 就 是 一 个 二 元 关系 。 

由 关系 数据 结构 组 成 的 数据 库 系 统 被 称 为 关系 数据 库 系 统 。 

在 关系 数据 库 中 ,对 数据 的 操作 几乎 全 部 建立 在 一 个 或 多 个 关系 表格 上 ,通过 对 这 些 关 
系 表格 的 分 类 、 合 并、 连接 或 选取 等 运算 来 实现 数据 的 管理 。 

因此 ,可 以 概括 地 说 ,一 个 关系 称 为 一 个 数据 库 ,若干 个 数据 库 可 以 构成 一 个 数据 库 系 
统 。 数 据 库 系统 可 以 派生 出 各 种 不 同类 型 的 辅助 文件 和 建立 它 的 应 用 系统 。 


2.5.6 数据 库 的 备份 与 恢复 


Oracle 数据 库 有 三 种 标准 的 备份 方法 ,它们 分 别 是 导出 /导入 (EXP/IMP) 、 热 备份 和 冷 
备份 。 导 出 备件 是 一 种 逻辑 备份 , 冷 备份 和 热 备份 是 物理 备份 。 

1. 导出 /导入 (Export/Import) 

利用 Export 可 将 数据 从 数据 库 中 提取 出 来 ,利用 Import 则 可 将 提取 出 来 的 数据 送 回 
到 Oracle 数据 库 中 去 。 

(1) 简单 导出 数据 (Export) 和 导入 数据 (Import) 

Oracle 支持 以 下 三 种 类 型 的 输出 : 

中 表 方 式 (T 方 式 ) ,将 指定 表 的 数据 导出 ; 

@ 用 户 方式 (U 方式 ) ,将 指定 用 户 的 所 有 对 象 及 数据 导出 ; 

@ 全 库 方式 (Full 方式 ) ,将 数据 库 中 的 所 有 对 象 导出 。 

数据 导入 (Import) 的 过 程 是 数据 导出 (Export) 的 逆 过 程 ,分 别 将 数据 文件 导入 数据 库 
和 将 数据 库 数据 导出 为 数据 文件 。 

(2) 增 量 导出 /导入 

增 量 导出 是 一 种 常用 的 数据 备份 方法 . 它 只 能 对 整个 数据 库 来 实施 ,并 且 必 须 作 为 
SYSTEM 来 导出 。 在 进行 此 种 导出 时 ,系统 不 要 求 回 答 任何 问题 。 导 出 文件 名 默认 为 
export. dmp。 如 果 不 希 望 自己 的 输出 文件 定名 为 export. dmp ,必须 在 命令 行 中 指出 要 用 的 
文件 名 。 

(3) 增 量 导出 包括 的 三 种 类 型 如 下 。 

Q@“ 完 全 ” 增 量 导出 (Complete) 即 备份 三 个 数据 库 , 比 如 : 


exp system/ranager inctype= complete file= 040731.dm 

加 “ 增 量 型 ? 增 量 导出 备份 上 一 次 备份 后 改变 的 数据 ,比如 : 

回 “累积 型 ? 增 量 导出 累计 型 导出 方式 是 导出 自 上 次 “完全 ?导出 之 后 数据 库 中 变化 了 
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的 信息 。 比 如 : 
exp system/ranager inctype= cumlative file= 040731.dm 
数据 库 管 理 员 可 以 排 定 一 个 备份 日 程 表 ,用 数据 导出 的 三 个 不 同方 式 合理 高 效 地 完 
比如 数据 库 的 导出 任务 可 以 做 如 下 安排 。 
星期 一 : 完全 备份 (A); 
星期 二 : 增 量 导出 (B); 
星期 三 : 增 量 导出 (C); 
星期 四 : 增 量 导 出 (D); 
星期 五 : 累计 导出 (E)， 
星期 六 : 增 量 导出 (F); 
星期 日 : 增 量 导出 (G)。 
如 果 在 星期 日 ,数据 库 遭 到 意外 破坏 ,数据 库 管 理 员 可 按 以 下 步骤 来 恢复 数据 库 。 
第 一 步 : 用 CREATE DATABASE 命令 重新 生成 数据 库 结构 ; 
第 二 步 : 创建 一 个 足够 大 的 附加 回 滚 ; 
第 三 步 : 完全 增 量 导入 A, 即 : 
jimp system/manager inctype= RESTORE FULI=y FIFE=A 
第 四 步 : 累计 增 量 导入 下: 
jmp system/manager inctype= RESTORE FULI=Y FIE=E 
第 五 步 : 最 近 增 量 导入 下， 
jimp system/manager inctype= FESTORE FULI=Y FIIE=F 
2. 冷 备份 
冷 备份 发 生 在 数据 库 已 经 正常 关闭 的 情况 下 , 当 正 常 关闭 时 会 提供 给 我 们 一 个 完整 的 
数据 库 。 冷 备份 是 将 关键 性 文件 复制 到 另外 位 置 的 一 种 说 法 。 对 于 备份 Oracle 信息 而 言 ， 
冷 备份 是 最 快 和 最 安全 的 方法 。 冷 备份 的 优点 如 下 。 
。 是 非常 快速 的 备份 方法 (只 需 复制 文件 ) 。 
。 容易 归档 (简单 复制 即 可 )。 
。 容易 恢复 到 某 个 时 间 点 上 (只 需 将 文件 再 复制 回去 )。 
。 能 与 归档 方法 相 结 合 , 做 数据 库 “ 最 佳 状态 ”的 恢复 。 
。 低 度 维护 ,高度 安全 。 
但 冷 备 份 也 有 如 下 不 足 。 
。 单独 使 用 时 .只 能 提供 到 * 某 一 时 间 点 上 ”的 恢复 。 
。 在 实施 备份 的 全 过 程 中 ,数据 库 必 须要 做 备份 而 不 能 做 其 他 工作 。 也 就 是 说 ,在 冷 
备份 过 程 中 ,数据库 必须 处 于 关闭 状态 。 
。 若 磁 盘 空 间 有 限 ,只 能 复制 到 磁带 等 其 他 外 部 存储 设备 上 ,速度 会 很 慢 。 
。 不 能 按 表 或 按 用 户 恢复 。 
如 果 可 能 (主要 看 效率 ) ,应 将 信息 备份 到 磁盘 上 ,然后 启动 数据 库 ( 使 用 户 可 以 工作 ) 并 
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将 备份 的 信息 复制 到 磁带 上 (复制 的 同时 ,数据 库 也 可 以 工作 )。 冷 备份 中 必须 复制 的 文件 


包括 : 

中 所 有 数据 文件 ; 四 所 有 控制 文件 ; @@ 所 有 联机 REDO LOG 文件 ; @Init. ora 文件 
(可 选 ) 。 

值得 注意 的 是 冷 备份 必须 在 数据 库 关闭 的 情况 下 进行 , 当 数据 库 处 于 打开 状态 时 ,执行 
数据 库 文件 系统 的 备份 是 无 效 的 。 

下 面 是 做 冷 备 份 的 完整 例子 。 

(1) 关闭 数据 库 

sqlplus/nolog 

sql> oonnect/as sysdba 

sql> shutdown nommal; 


(2) 用 复制 命令 备份 全 部 的 时 间 文 件 、 重 做 日 志文 件 、 控 制 文件 ,初始 化 参数 文件 
PP 

(3) 重启 Oracle 数据 库 

sql> startup 


3. 热 备份 
热 备份 是 在 数据 库 运行 的 情况 下 ,采用 归档 模式 (archivelog mode) 方 式 备 份 数据 库 的 


方法 。 所 以 ,如 果 用 户 有 昨天 夜里 做 过 一 个 冷 备份 而 且 又 有 今天 的 热 备份 文件 ,在 发 生 问 题 
时 ,就 可 以 利用 这 些 资 料 恢复 更 多 的 信息 。 热 备份 要 求 数据 库 在 Archivelog 方式 下 操作 ， 
并 需要 大 量 的 档案 空间 。 一 旦 数据 库 运 行 在 archivelog 状态 下 ,就 可 以 做 备份 了 。 热 备份 
的 命令 文件 由 以 下 三 部 分 组 成 。 
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(1) 数据 文件 是 一 个 表 空 间 和 一 个 表 空 间 的 备份 

J@ 设置 表 空 间 为 备份 状态 ; 

@ 备份 表 空 间 的 数据 文件 ; 

@ 恢复 表 空 间 为 正常 状态 。 

(2) 备份 并 归档 log 文件 

@ 临时 停止 归档 进程 

@ log 下 archive rede log 目标 目录 中 的 文件 ; 

@ 重新 启动 archive 进程 

@ 备份 归档 的 redo log 文件 。 

(3) 用 alter database backup controlfile 命令 来 备份 控制 文件 
热 备份 的 优点 是 : 

。 可 在 表 空间 或 数据 库 文件 级 备份 ,备份 的 时 间 短 ; 
备份 时 数据 库 仍 可 使 用 ; 

。 可 达到 秒 级 恢复 (恢复 到 某 一 时 间 点 上 ); 

可 对 几乎 所 有 数据 库 实体 做 恢复 ; 

恢复 是 快速 的 ,大 多 数 情 况 下 在 数据 库 仍 工作 时 恢复 。 





. 
| 
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热 备份 的 不 足 是 : 

。 不 能 出 错 , 否 则 后 果 严 重 

。 若 热 备份 不 成 功 ,所 得 结果 不 可 用 于 时 间 点 的 恢复 ; 

。 因 难 于 维护 ,所 以 要 特别 仔细 小 心 ,不 允许 “以 失败 告终 ”。 


任务 拓展 


1. 存储 数据 中 心 的 基础 设施 与 中 心机 房 构建 。 
2. 目前 存储 介质 在 数据 存储 中 的 应 用 。 

3. 主机 软 硬 件 系统 的 基本 架构 与 管理 。 

4. 数据 库 在 存储 应 用 系统 方面 的 具体 应 用 案例 。 
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(人 任务 目标 

。 熟悉 数据 存储 阵列 系统 的 组 成 ; 
。 掌握 数据 存储 阵列 系统 技术 ; 

。 掌握 数据 存储 阵列 基础 配置 ; 

。 掌握 SAN 技术 原理 以 及 应 用 ; 

。 掌握 IP SAN 技术 原理 以 及 应 用 ; 
。 掌握 SNAS 技术 原理 以 及 应 用 。 


( 项 目 背 景 

企业 存储 技术 发 展 日 新 月 异 .早期 大 型 服务 器 的 DAS 技术 (Direct Attached Storage， 
直接 附加 存储 ,又 称 直 连 存储 ) ,后 来 为 了 提高 存储 空间 的 利用 率 及 管理 安装 上 的 效率 ,因而 
有 了 SAN(Storage Area Network ,存储 局 域 网 络 ) 技 术 的 诞生 ,传统 存储 阵列 不 能 像 软 件 定 
义 那样 适应 最 新 的 业务 应 用 ,成 本 高 ,操作 复杂 ,数据 访问 慢 , 受 RAID 组 态 变化 的 影响 较 
大 。SAN 可 以 说 是 DAS 网 络 化 发 展 趋势 下 的 产物 。SAN 采用 的 是 光纤 通道 (FC, Fiber 
Channel) 技 术 ,所 以 在 iSCSI 出 现 以 前 ,SAN 多 半 单 指 FC 而 言 。 一 直到 iSCSI 出 现 , 分 为 
FC-SAN 及 iSCSI-SAN 存储 。 紧 接着 ,为 了 能 在 多 用 户 网 络 环境 中 做 好 档案 集中 化 分 享 管 
理 的 工作 ,采用 全 然 不 同 于 以 往 的 文件 协议 (File ProtocoD 数 据 存 取 方式 的 NASCNetwork 
Attached Storage, 网 络 附加 存储 ) 方 案 也 应 运 而 生 。 互 联网 的 日 益 发 展 ,IP 存储 成 为 最 佳 
存储 方案 , 随 着 大 数据 、 云 计算 的 发 展 , 云 存 储 的 出 现 省 去 了 本 地 维护 环节 ,把 数据 都 存在 了 
别处 。 闪 存 和 混合 存储 不 受 磁盘 阵列 延迟 的 影响 而 快速 访问 数据 。 融 合 存储 融合 了 服务 器 
和 存储 ,对 象 存储 用 分 布 式 存储 代替 了 中 心 化 存储 ,所 有 新 思路 的 提出 都 是 为 了 解决 传统 存 
储 阵 列 所 面临 的 问题 。 


CZ 
2 项 目 描 迁 

聚 比 特 科技 有 限 公司 建立 网 络 基础 平台 建 作 为 信息 化 支持 中 心 .应 用 推广 中 心 和 公司 
技术 管理 数据 中 心 ,根据 企业 数据 应 用 特点 ,综合 考虑 可 用 人 性、 性 能 和 成 本 来 解决 传统 存储 
阵列 所 面临 的 问题 ,制定 当前 最 佳 存储 技术 方案 。 
(项 目 分 析 

聚 比 特 科技 有 限 公 司 数据 中 心 的 业务 数据 分 析 。 数 据 呈 现 爆 炸 性 增长 ,不 仅 对 存储 的 
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性 能 及 容量 提出 苛刻 考验 ,还 要 具备 快速 的 数据 检索 与 分 析 能 力 以 及 时 获取 关键 价值 信息 ， 
所 用 存储 技术 方案 是 解决 问题 的 核心 。 


1 
全 册 项 目 实现 

面 对 公司 业务 数据 分 析 ,数据 呈现 爆炸 性 增长 ,活跃 数据 归档 需要 更 加 简便 ,同时 又 得 
考虑 成 本 和 存储 方案 的 有 效 性 。 美 国 市 场 研究 公司 IDC 也 认为 “在 可 预见 的 未 来 ,存储 是 
大 数据 和 分 析 领 域 最 大 的 基础 设施 开支 之 一 ”"”。 所 以 针对 目前 公司 业务 数据 现状 ,选择 适合 
当前 公司 业务 发 展 的 存储 方案 ,再 逐步 升级 完善 。 


3.1 存储 阵列 系统 的 组 成 


3.1.1 存储 阵列 系统 的 基本 概念 


当今 的 存储 技术 不 是 一 个 单独 而 孤立 的 技术 ,实际 上 ,完整 的 存储 系统 应 该 是 由 一 系列 
组 件 构成 。 目 前 ,人 们 把 存储 系统 分 为 了 硬件 架构 部 分 .软件 组 件 部 分 以 及 实际 应 用 时 的 存 
储 解 决 方案 部 分 。 硬 件 部 分 又 包括 外 置 的 存储 系统 ,主要 是 指 人 们 实际 的 存储 设备 ,比如 磁 
盘 阵 列 、 磁 带 库 等 。 因 为 软件 组 件 的 存在 ,使 存储 设备 的 可 用 性 得 到 了 大 大 的 提高 ,数据 的 
镜像 .复制 .自动 的 数据 备份 等 数据 操作 都 可 以 通过 对 存储 软件 的 控制 来 完成 。 一 个 设计 良 
好 的 存储 解决 方案 ,是 使 数据 存储 工作 更 加 简单 易 行 的 最 佳 保障 ,设计 优秀 的 存储 解决 方 
案 , 不 仅 可 以 使 存储 系统 实际 部 署 的 时 候 更 简单 容易 ,更 可 以 降低 客户 的 总 体 拥有 成 本 
(TCO) ,使 客户 的 投资 能 得 到 良好 的 保护 ,如 图 3-1 所 示 。 
。 容 灾 解 决 方案 
。 备 份 解 决 方案 





。 存 储 管理 软件 (ISM) 
。 快照、 镜像 软件 




















x “备份 软件 
在 储 软件 
。 人 。 存 储 连接 设备 
rp 芝 阵 列 FC HBA 卡 
存储 硬件 NAS FC 交换 机 
磁带 库 以 太 网 交换 机 
虚拟 磁带 库 连接 线 缆 


图 3-1 存储 阵列 系统 


3.1.2 存储 阵列 在 存储 系统 架构 中 的 位 置 

在 存储 系统 架构 中 ,磁盘 阵列 作为 数据 存储 设备 ,为 用 户 业 务 系统 提供 数据 存储 服务 。 
存储 阵列 设备 成 为 用 户 数据 业务 稳定 、 可 靠 .高 效 运行 的 重要 因素 ,如 图 3-2 所 示 。 
3.1.3 存储 阵列 系统 硬件 的 组 成 


存储 阵列 系统 主要 由 控制 框 和 硬盘 框 两 部 分 组 成 ,为 客户 提供 一 个 高 可 靠 .高 性 能 ,大 
容量 的 智能 化 存储 系统 ,如 图 3-3 所 示 。 
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工作 站 | | 


















存储 阵列 
服务 器 
交换 机 
存储 阵列 


存储 阵列 存储 阵列 存储 阵列 
图 3-2 存储 系统 构架 





图 3-3 存储 阵列 系统 硬件 


(1) 控制 框 : 控制 框 用 于 处 理 各 种 存储 业务 ,并 管理 级 联 在 控制 框 下 面 的 硬盘 框 。 
(2) 硬盘 框 : 硬盘 框 主要 用 于 容纳 各 种 硬盘 ,为 应 用 服务 器 提供 充足 的 存储 空间 。 


3.2 传统 的 存储 系统 


3.2.1 传统 的 内 置 存储 


在 传统 的 计算 机 存储 系统 中 ,存储 工作 通常 是 由 计算 机 内 置 的 硬盘 来 完成 的 ,而 采用 这 
样 的 设计 方式 ,硬盘 本 身 的 缺陷 很 容易 成 为 整个 系统 的 性 能 瓶颈 ,并 且 由 于 机 箱 内 有 限 的 空 
间 限 制 了 硬盘 数量 的 扩展 ,同时 也 对 机 箱 内 的 散热 ,供电 等 提出 了 严峻 的 挑战 ,再 加 上 不 同 
的 计算 机 各 自 为 战 ,使 用 各 自 内 置 的 硬盘 ,导致 从 总 体 看 来 存储 空间 的 利用 率 较 低 ,并 且 分 
散 保 存 的 数据 也 不 利于 数据 的 共享 和 备份 工作 。 在 传统 的 C/S 架构 中 ,无 论 使 用 的 是 何 种 
协议 ,存储 设备 都 直接 与 服务 器 相连 接 。 在 这 样 的 结构 下 ,对 存储 设备 上 所 保存 的 所 有 数据 
的 任何 读 写 操作 ,都 必须 由 服务 器 来 进行 ,这 样 的 处 理 方式 给 服务 器 带 来 了 沉重 的 负担 。 外 
部 存储 系统 的 出 现 ,彻底 将 服务 器 从 烦琐 的 I/O 操作 中 解放 出 来 ,使 服务 器 更 加 专门 化 ,使 
之 仅仅 承担 应 用 数据 的 操作 任务 ,得 以 更 充分 地 释放 自身 潜能 。 把 存储 设备 从 服务 器 中 分 
离 出 来 ,使 它们 变 成 直接 与 网 络 连 接 的 网 络 存储 设备 。 所 以 存储 区 域 网 中 ,存储 设备 不 再 属 
于 哪个 应 用 服务 器 ,从 而 可 以 对 存储 设备 实施 集中 管理 ,使 用 户 可 以 方便 地 共享 存储 资源 。 
为 网 络 上 的 应 用 系统 提供 丰富 的 存储 资源 及 快速 .简便 的 访问 方式 ,如 图 3-4 所 示 。 
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。 存储 容量 不 足 
。 可靠 性 不 足 

。 存储 空间 利用 率 低 
。 数据 分 散 

。 扩 展 性 问题 

。 总 线 结构 

















3-4 传统 内 置 存储 


存储 网 络 建立 了 独立 的 基于 网 络 的 存储 架构 ,增强 了 现 有 的 计算 拓扑 架构 。 存 储 网 络 
允许 存储 设备 直接 连接 到 现 有 网 络 上 ,也 可 以 通过 专门 的 存储 网 络 进行 连接 ,这 一 技术 给 传 
统 的 存储 配置 方案 带 来 了 两 个 重要 的 变化 。 

(1) 存储 网 络 在 存储 设备 .服务 器 以 及 客户 机 之 间 建 立 了 更 多 的 直接 访问 路 径 ,从 而 使 
用 户 事务 能 够 绕 过 大 量 的 服务 器 1/O 操作 而 直接 与 数据 发 生 联系 ,从 而 避免 了 对 服务 器 进 
行 不 必要 的 访问 。 

(2) 存储 网 络 使 得 商务 应 用 系统 能 够 以 更 高 的 效率 访问 数据 。 换 言 之 ,存储 网 络 使 得 
应 用 系统 能 够 更 方便 地 共享 数据 ,并 赋予 服务 器 更 为 强大 的 数据 连接 能 力 。 


3.2.2 外 置 存储 网 络 的 形态 


(1) 直接 连接 存储 (Direct Attached Storage, DAS)。 由 于 早期 的 网 络 十 分 简单 ,所 以 
直接 连接 存储 得 到 发 展 。 随 着 计算 能 力 、 内 存 、 存 储 密度 和 网 络 带 宽 的 进一步 增长 , 越 来 越 
多 的 数据 被 存储 在 个 人 计算 机 和 工作 站 中 。 分 布 式 的 计算 和 存储 的 增长 对 存储 技术 提出 了 
更 高 的 要 求 。 由 于 使 用 DAS, 存 储 设备 与 主机 的 操作 系统 紧密 相连 ,其 典型 的 管理 结构 是 
基于 SCSI 的 并 行 总 线 式 结构 。 存 储 共享 是 受 限 的 ,原因 是 存储 是 直接 依附 在 服务 器 上 的 。 
从 另 一 方面 看 ,系统 也 因此 背 上 了 沉重 的 负担 .因为 CPU 必须 同时 完成 磁盘 存 取 和 应 用 运 
行 的 双重 任务 ,所 以 不 利于 CPU 的 指令 周期 的 优化 。 

(2) 网 络 连接 存储 (Network Attached Storage, NAS)。 局 域 网 在 技术 上 得 以 广泛 实 
施 ,在 多 个 文件 服务 器 之 间 实 现 了 互联 ,为 实现 文件 共享 而 建立 一 个 统一 的 框架 。 随 着 计算 
机 应 用 越 来 越 广泛 ,大量 的 不 兼容 性 导致 数据 的 获取 日 趋 复杂 。 因 此 采用 广泛 使 用 的 局 域 
网 加 工作 站 族 的 方法 就 对 文件 共享 . 互 操作 性 和 节约 成 本 有 很 大 的 意义 。NAS 包括 一 个 特 
殊 的 文件 服务 器 和 存储 设备 。NAS 服务 器 上 采用 优化 的 文件 系统 ,并 且 安 装 了 预 配置 的 存 
储 设备 。 由 于 NAS 是 连接 在 局 域 网 上 的 ,所 以 客户 端 可 以 通过 NAS 系统 与 存储 设备 交互 
数据 。 另 外 ,NAS 直接 运行 文件 系统 协议 ,诸如 NFS、CIFS 等 。 客 户 端 系统 可 以 通过 磁盘 
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映射 和 数据 源 建 立 虚拟 连接 。 

(3) 存储 区 域 网 络 (Storage Area Networks,SAN)。 一 个 存储 网 络 是 一 个 用 在 服务 器 
和 存储 资源 之 间 的 、 专 用 的 、 高 性 能 的 网 络 体 系 。 它 为 了 实现 大 量 原始 数据 的 传输 而 进行 了 
专门 的 优化 。 因 此 ,可 以 把 SAN 看 成 是 对 SCSI 协议 在 长 距离 应 用 上 的 扩展 。SAN 使 用 的 
典型 协议 组 是 SCSI 和 Fiber Channel。Fiber Channel 特别 适合 这 项 应 用 ,原因 在 于 ,一 方 
面 它 可 以 传输 大 块 数据 , 另 一 方面 它 能 够 实现 远 距离 传输 。SAN 的 市 场 主要 集中 在 高 端 
的 ,企业 级 的 存储 应 用 上 。 这 些 应 用 对 于 性 能 、 宛 余 度 和 数据 的 可 获得 性 都 有 很 高 的 要 求 。 
3.2.3 DAS 存储 的 形态 

1. 外 部 硬盘 阵列 

JBOD 即 Just a Bunch Of Disks, 其 在 迎 辑 上 把 几 个 物理 磁盘 串联 在 一 起 ,其 目的 纯粹 
是 为 了 增加 磁盘 的 容量 ,并 不 提供 数据 安全 保障 。 能 够 解决 内 置 存储 有 限 硬盘 槽 位 及 容量 
扩展 不 足 的 问题 。 但 仍然 是 基于 单 硬盘 存放 数据 ,可 靠 性 差 , 如 图 3-5 所 示 。 

外 部 硬盘 阵列 (DAS) 智能 硬盘 阵列 (DAS) 
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图 3-5 硬盘 阵列 


2. 智能 硬盘 阵列 
控制 器 中 包含 RAID 功能 ,大 容量 Cache, 同 时 使 得 磁盘 阵列 具有 多 种 实用 的 功能 , 配 
置 专用 管理 软件 进行 配置 管理 。 


3.2.4 DAS 存储 的 局 限 性 


DAS 存储 方式 实现 了 机 内 存储 到 存储 子 系统 的 跨越 ,但 其 也 存在 很 多 局 限 性 。 

(1) 扩展 性 差 : 服务 器 与 存储 设备 采用 直接 连接 的 方式 , 当 需 要 新 增 应 用 服务 器 时 ,只 
能 为 新 增 的 服务 器 单独 配置 存储 设备 ,造成 重复 投资 。 

(2) 浪费 资源 : 存储 空间 无 法 充分 利用 ,存在 浪费 。 不 同 的 应 用 服务 器 面 对 的 存储 数 
据 量 是 不 一 致 的 ,同时 业务 发 展 的 状况 也 决定 着 存储 数据 量 的 变化 。 因 此 ,出现 了 一 部 分 应 
用 对 应 的 存储 空间 不 够 用 , 另 一 部 分 却 有 大 量 的 存储 空间 闲置 。 

(3) 管理 分 散 : DAS 方式 数据 依然 是 分 散 的 ,不 同 的 应 用 各 有 一 套 存 储 设备 ,管理 分 
散 ,无 法 集中 。 

(4) 异 构 化 严重 : DAS 方式 使 得 企业 在 不 同 阶段 采购 了 不 同型 号 .不同 厂商 的 存储 设 
备 ,设备 之 间 异 构 化 现象 严重 .导致 维护 成 本 居 高 不 下 。 
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(5) 数据 备份 问题 : DAS 方式 与 主机 直接 连接 ,在 对 重要 的 数据 进行 备份 时 ,将 会 极 大 
地 占用 网 络 的 带宽 。 

DAS 特别 适合 于 对 存储 容量 要 求 不 高 .服务 器 的 数量 很 少 的 中 小 型 局 域 网 ,其 主要 的 
优点 在 于 存储 容量 扩展 的 实施 非常 简单 ,投入 的 成 本 少 而 见效 快 。 通 常 使 用 SCSI 协议 实 
现 主机 服务 器 与 存储 设备 的 互联 。 














3.3 SAN 技术 与 应 用 


3.3.1 SAN 存储 基础 


1. 存储 区 域 网 络 概念 

存储 区 域 网 络 (Storage Area Networks,SAN) 是 一 个 用 在 服务 器 和 存储 资源 之 间 的 、 
专用 的 ,高 性 能 的 网 络 体系 。SAN 是 独立 于 LAN 的 服务 器 后 端 存 储 的 专用 网 络 。SAN 采 
用 可 扩展 的 网 络 拓扑 结构 连接 服务 器 和 存储 设备 ,每 个 存储 设备 不 隶属 于 任何 一 台 服 务 器 ， 
所 有 的 存储 设备 都 可 以 在 全 部 的 网 络 服务 器 之 间作 为 对 等 资源 共享 。 

SAN 主要 利用 Fibre Channel protocol( 光 纤 通 道 协议 ) ,通过 FC 交换 机 建立 起 与 服务 
器 和 存储 设备 之 间 的 直接 连接 ,因此 我 们 通常 也 称 这 种 利用 FC 连接 建立 起 来 的 SAN 为 
FC-SAN。FC 特别 适合 这 项 应 用 ,原因 在 于 一 方面 它 可 以 传输 大 块 数据 , 另 一 方面 它 能 够 
实现 较 远 距 离 传 输 。SAN 主要 应 用 在 对 性 能 、 宛 余 度 和 数据 的 可 获得 性 都 有 很 高 要 求 的 高 
端 企业 级 存储 上 ,如 图 3-6 所 示 。 








存储 阵列 设备 存储 阵列 设备 








图 3-6 存储 区 域 网 络 


随 着 存储 技术 的 发 展 , 目 前 基于 TCP/IP 协议 的 IP-SAN 也 得 到 很 广泛 的 应 用 。 
IP-SAN 具备 很 好 的 扩展 性 、 灵 活 的 互通 性 ,并 能 够 突破 传输 距离 的 限制 ,具有 明显 的 成 本 
优势 和 管理 维护 容易 等 特点 。 

2. SAN 典型 组 网 

(1) 直 连 : 主机 与 存储 之 间 通过 FC HBA 卡 连 接 ,这 种 组 网 方式 简单 .经济 ,但 较 多 的 
主机 分 享 存储 资源 比较 困难 。 

(2) 单 交换 : 主机 与 存储 之 间 由 一 台 FC 交换 机 连接 ,这 种 组 网 结构 使 多 台 主 机 能 共同 
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分 享 同一 台 存 储 设备 ,扩展 性 强 , 但 交换 机 处 存在 单 点 故障 。 

(3) 双 交 换 : 同一 台 主 机 到 存储 阵列 端 可 由 多 条 路 径 连接 ,扩展 性 强 , 避 免 了 在 交换 机 
处 形成 单 点 故障 ,如 图 3-7 所 示 。 











喜 乏 天 到 交换 
了 333 93 
后 有 服务 器 应用 服务 器 应 用 服务 后 用 服务 器 
光纤 卡 光纤 交换 机 光纤 交换 机 。 光纤 交换 机 
存储 设备 存储 设备 存储 设备 




















3-7 SAN 典型 组 网 


3. SAN 的 组 件 

光纤 存储 区 域 网 络 由 四 个 主要 的 部 分 组 成 ,这 些 组 件 覆 盖 了 I/O 操作 、 存 储 系统 以 及 
所 支持 的 工作 负荷 的 各 个 主要 方面 。 同 时 ,在 SAN 技术 中 ,还 需要 一 些 其 他 组 件 进行 集 
成 ,以 构建 完整 的 解决 方案 。 在 考虑 SAN 的 基础 设施 建设 时 ,我 们 需要 谨慎 地 考虑 构成 
SAN 基础 设施 的 各 个 不 同 的 组 件 , 因 为 在 SAN 中 ,这 些 组 件 或 者 相互 独立 运作 ,或 者 相互 
依赖 以 协同 工作 ,如 图 3-8 所 示 。 





光纤 通道 光纤 网 络 





存储 设备 
图 3-8 SAN 的 组 件 


4. SAN 存储 网 络 的 特点 

与 传统 DAS 存储 相 比 ,SAN 存储 网 络 具备 非常 明显 的 优势 ,如 图 3-9 所 示 。 

(1) 基于 FC 光纤 介质 ,拥有 千 兆 位 的 存储 带宽 ,更 适合 大 容量 数据 块 业务 高 速 处 理 的 
要 求 , 目 前 主流 带宽 为 8Gbps。 

(2) 由 于 SAN 存储 网 络 中 存储 设备 (如 磁盘 阵列 ,磁带 库 等 ) 集 中 部 署 , 可 以 实现 对 设 
72 


第 3 章 ”数据 存储 技术 





| 
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图 3-9 SAN 存储 网 络 的 特点 


备 的 集中 管理 ,同时 也 可 以 通过 远程 方式 登录 设备 实现 远程 管理 ,管理 方式 更 加 灵活 。 

(3) 存储 资源 集中 统一 部 署 ,分 别 映射 给 各 应 用 服务 器 ,实现 存储 资源 的 共享 ,同时 可 
以 根据 各 应 用 服务 器 对 存储 资源 的 需求 为 其 动态 地 分 配 资源 ,实现 存储 资源 的 动态 共享 。 

(4) 在 SAN 存储 网 络 中 ,数据 的 传输 ,复制 .迁移 、 备 份 等 在 SAN 网 内 高 速 进行 ,不 需 
占用 业务 网 络 WAN/LAN 的 带宽 资源 。 

(5) 在 SAN 存储 网 络 环境 下 ,扩展 存储 资源 变 得 非常 容易 ,只 需要 增加 新 的 存储 设备 
到 SAN 存储 网 络 中 即 可 ,实现 平滑 的 扩容 。 新 增 的 存储 资源 可 以 直接 映射 给 应 用 服务 器 
使 用 。 

(6) 由 于 SAN 存储 网 络 使 用 的 FC 协议 实现 了 对 SCSI 协议 的 封装 ,因此 可 以 实现 对 
以 前 的 各 种 SCSI 存储 设备 的 兼容 ,在 异 构 环境 下 ,更 能 体现 其 优势 。 

5. SAN 存储 的 应 用 

SAN 存储 网 络 主要 应 用 在 以 下 方面 ,如 图 3-10 所 示 。 

(1) 对 响应 时 间 、 可 用 性 和 可 扩展 性 要 求 高 的 关键 任务 数据 库 应 用 

(2) 对 性 能 .数据 完整 性 和 可 靠 性 要 求 高 的 集中 存储 备份 ,以 保证 关键 数据 的 安全 ,可 
极 大 地 提高 企业 数据 备份 和 恢复 操作 可 靠 性 和 可 扩展 性 。 









由 于 存储 设备 的 集 存储 资源 在 逻辑 上 被 
中 部 署 ， 应 用 服务 分 成 多 个 块 并 分 别 映 
器 可 以 实现 低 成 本 射 给 应 用 服务 器 . 实 


的 数据 存 取 和 共享 现存 储 资 源 共享 





数据 备份 使 用 独立 的 SAN 网 络 可 采用 多 种 
SAN 网 络 与 业务 了 分 手段 实现 数据 的 自动 
离 ,实现 对 异 构 服务 备份 ,一 旦 出 现 灾难 ， 
器 和 多 数据 形式 进行 可 以 立即 实现 数据 
集中 备份 恢复 


3-10 SAN 存储 的 应 用 
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(3) 海量 存储 的 应 用 环境 。 例 如 ,图 书馆 、 银 行 、 证 券 、 中 大 型 企业 或 组 织 的 数据 中 心 。 
(4) 支持 服务 器 及 其 连接 设备 之 间 提供 光纤 通道 高 性 能 和 扩展 的 距离 。 


3.3.2 FC 连接 与 协议 


1. FC 拓扑 结构 

FC 主要 有 三 种 拓扑 结构 ,用 以 描述 各 个 节点 的 连接 方式 。 光 纤 通道 术语 中 的 “节点 ” 
是 指 通 过 网 络 进 行 通信 的 任何 实体 ,而 不 一 定 是 一 个 硬件 节点 。 这 个 节点 通常 是 一 个 设备 ， 
比如 说 一 个 磁盘 存储 器 ,服务 器 上 的 一 个 主机 总 线 适 配器 或 者 是 一 个 光纤 网 交换 机 ,如 
图 3-11 所 示 。 








点 对 点 Arbitrated Loop (仲裁 环 ) 交换 式 Fabric 
应 用 最 普 
mm 
国 - 一 国 EE 国 于 -人 ”过 -图 
而 加 国 证 


只 能 连接 2 个 设备 最 多 支持 127 个 设备 最 多 支持 1600 万 个 设备 
(直接 连接 ) (光纤 集线器 ) (光纤 通道 交换 机 ) 


3-11 FC 拓扑 结构 


(1) 点 对 点 式 : 两 个 设备 背 对 背 直 接连 接 。 这 是 最 简单 的 一 种 拓扑 ,连接 能 力 受 限 。 

(2) 仲裁 环 式 : 这 种 设计 方式 中 ,所 有 设备 连接 在 一 个 类 似 于 令 牌 环 的 环 路 上 。 这 个 
环 路 中 添加 或 者 移 除 一 个 设备 会 导致 环 路 上 所 有 活动 中 断 。 一 个 设备 的 故障 导致 整个 环 路 
不 能 进行 工作 。 光 纤 通 道 集线器 能 够 用 于 将 众多 设备 连接 到 一 起 形成 一 个 逻辑 上 的 环 路 ， 
并 且 能 够 旁 路 故障 节点 ,使 得 环 上 节点 的 故障 不 会 影响 整个 环 路 的 通信 。 一 个 环 路 也 可 以 
通过 使 用 线 缆 直 接 将 节点 一 个 接 一 个 地 连接 成 一 个 环 而 实现 。 最 小 的 环 路 只 包含 两 个 节 
点 ,这 种 结构 看 起 来 和 点 到 点 式 连接 近似 ,它们 的 区 别 在 很 大 程度 上 取决 于 各 自 的 协议 。 

(3) 光纤 交换 式 : 所 有 的 设备 或 者 设备 环 都 被 连接 到 光纤 网 交换 机 上 ,与 现 有 的 以 太 
网 的 实现 形式 在 概念 上 是 类 似 的 。 这 种 拓扑 结构 相对 于 点 到 点 和 仲裁 环 的 优势 在 于 : 

@ 交换 机 对 结构 形式 进行 管理 ,提供 了 最 好 的 互联 形式 ; 

@ 多 对 节点 可 以 同时 通信 ; 

@ 各 个 节点 的 故障 是 孤立 的 ,不 会 危及 其 他 节点 的 工作 。 

2. FC 协议 栈 

FC 开发 于 1988 年 ,最 早 是 用 来 提高 硬盘 协议 的 传输 带宽 ,侧重 于 数据 的 快速 高效、 可 
靠 传输 。 到 20 世纪 90 年 代 末 ,FC-SAN 开始 得 到 大 规模 的 广泛 应 用 。 光 纤 通 道 的 主要 部 
分 实际 上 是 FC-2。 其 中 从 FC-0 到 FC-2 被 称 为 FC-PH, 也 就 是 “物理 层 ”。 光 纤 通 道 主 要 
通过 FC-2 来 进行 传输 ,因此 ,光纤 通道 也 常 被 称 为 "二 层 协议 ?或 者 “类 以 太 网 协议 ”。 

光纤 通道 的 数据 单元 称 为 帧 。 即 使 光纤 通道 本 身 就 有 几 个 层 , 大 部 分 光纤 通道 是 指 第 
2 层 协议 。 一 个 光纤 通道 帧 最 大 是 2 148 字 节 ,而 且 光 纤 通 道 帧 的 头 部 比 起 广域网 的 IP 和 
TCP 来 说 有 些 奇 怪 。 光 线 通 道 只 使 用 一 个 帧 格式 来 在 多 个 层 上 完成 各 种 任务 。 帧 的 功能 
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决定 其 格式 。 相 比 在 IP 世界 中 的 概念 ,光纤 通道 帧 格式 是 奇特 而 且 奇 妙 的 。 

光纤 通道 帧 起 始 于 帧 开始 (SOF) 标 志 , 接 下 来 是 帧 头 部 ,数据 或 光纤 通道 内 容 紧 随 其 
后 ,然后 是 帧 结束 (EOF)。 这 样 封装 的 目的 是 让 光纤 通道 可 以 在 需要 时 被 其 他 类 似 于 TCP 
的 协议 所 承载 ,如 图 3-12 所 示 。 


FC-4 


FC-3 





FC-2 时 结构 协议 “se FCAL FC-AL2 
光纤 物理 与 信号 接 加 一 一 


FC-1 时 编码 /解码 (FC-PH、 FC-PH2、 
FC-PH3) gb/10b 
FC-0 四 物理 交换 | 编码 铜 , 光 连接 


管理 文件 名 Bef 存储 A 
空间 映射 操作 方法 共享 


图 3-12 FC 协议 栈 











FC-0: 物理 层 ,定制 了 不 同 介质 ,传输 距离 ,信号 机 制 标 准 ,也 定义 了 光纤 和 铜 线 接口 以 
及 电缆 指标 。 

FC-1: 定义 编码 和 解码 的 标准 。 

FC-2: 定义 了 帧 流 控 制 和 服务 质量 等 。 

FC-3: 定义 了 常用 服务 ,如 数据 加 密 和 压缩 。 

FC-4: 协议 映射 层 ,定义 了 光纤 通道 和 上 层 应 用 之 间 的 接口 .上层 应 用 比如 串 行 SCSI 
协议 。HBA 的 驱动 提供 了 FC-4 的 接口 函数 。FC-4 支持 多 协议 ,如 FCP-SCSI、FC-IP、 
FC-VI。 

3. FC 与 SCSI 协议 

FC 与 SCSI 协议 的 关系 如 图 3-13 所 示 。 

(1) FC 通道 并 不 是 SCSI 的 替代 ,FC 可 以 通过 构建 帧 来 传输 SCSI 的 指令 .数据 和 状态 
信息 单元 。 

(2) SCSI 是 位 于 光纤 通道 协议 栈 FC4 的 上 层 协议 ,SCSI 是 FC 协议 的 子 集 。 

4. FC 存储 设备 

8Gb FC 接口 模块 提供 传输 速率 为 8Gb/s 的 主机 端口 。 当 连接 的 设备 传输 速率 低 于 主 
机 端口 速率 时 ,主机 端口 将 自动 适应 传输 速率 .以 保证 数据 传输 通道 的 连通 性 和 数据 传输 速 
率 的 一 致 性 。 
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FC-0 物 理 变换 


FC-1 编 码 /解码 


FC-2 结 构 协 议 





图 3-13 FC 与 SCSI 协 议 的 关系 
存储 设备 上 的 FC 接口 模块 提供 了 应 用 服务 器 与 存储 系统 的 业务 接口 ,用 于 接收 应 用 
服务 器 发 出 的 数据 交换 命令 ,如 图 3-14 所 示 。 
模块 电源 指示 灯 -请 匡 恒 -长 状 


aaamei 拉手 
FC 主机 端口 一 一 也 
四 :: 
| 画 潮 
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FC 主机 端 D 3 里! 
link/speed 指 示 灯 省 :: 




















FC 主机 端口 | 一 
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5. 光纤 交换 机 

光纤 通道 交换 机 使 用 光纤 网 络 路 由 直接 连接 的 方式 ,发 起 者 和 目标 设备 可 以 通过 光纤 
通道 交换 机 中 的 路 由 软件 建立 直接 的 连接 以 独 享 光纤 的 所 有 带宽 。 

光纤 通道 交换 机 是 SAN 的 核心 , 它 连 接着 主机 和 存储 设备 。 一 般 可 分 为 入 门 级 交换 
机 工作 组 级 光纤 交换 机 核心 级 光纤 交换 机 。 工 作 组 级 光纤 交换 机 应 用 最 多 的 领域 是 小 型 
SAN, 通 过 级 联 交换 机 ,能 够 建立 一 个 大 型 的 .虚拟 的 ,具有 分 布 式 优点 的 交换 机 ,并 且 它 可 
以 跨越 的 距离 非常 大 。 核 心 级 交换 机 (又 叫 导 向 器 ) 一 般 位 于 大 型 SAN 的 中 心 , 支 持 光纤 
以 外 的 协议 、 高 级 光纤 服务 (例如 安全 性 、 中 继 线 和 帧 过 滤 等 ) ,核心 光纤 交换 机 往往 采用 基 
于 "刀片 式 ? 的 热 插 拔 电路 板 。 

与 以 太 网 交换 机 相 比 ,FC 交换 机 用 于 构建 光纤 网 络 ,而 以 太 网 交换 机 用 于 构建 以 太 网 
络 ;光纤 交换 机 中 使 用 的 是 FC 协议 ,以 太 网 交换 机 使 用 的 是 TCP/IP 协议 。 

光纤 交换 机 上 为 了 不 同 设备 之 间 的 访问 隔离 引入 了 zone 的 概念 ,zone 的 功能 类 似 于 以 
太 网 交换 机 上 的 VLAN 功能 , 它 是 将 连接 在 SAN 网 络 中 的 设备 (主机 和 存储 ) 在 逻辑 上 划 
为 不 同 的 区 域 , 使 得 不 同 区域 中 的 设备 相互 间 不 能 通过 FC 网 络 直接 访问 ,从 而 实现 网 络 中 
的 设备 之 间 的 相互 隔离 。 

6. FC 交换 机 端口 

光纤 网 交换 机 中 具有 一 些 称 为 端口 (Port) 的 连接 部 件 ,不 同 的 端口 根据 其 所 连接 的 设 
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图 3-15 FC 交换 机 端口 


(1) F_Port 

EF 端口 也 被 称 为 光纤 网 端口 ,用 于 将 服务 器 和 存储 设备 连接 到 交换 机 上 。 一 个 被 连接 
到 交换 机 下 端口 的 设备 就 是 一 个 节点 (Node) ,用 光纤 通道 术语 来 说 , 它 被 看 作 是 一 个 N 端 
口 (N_Port) 。 如 果 是 在 仲裁 环 路 拓扑 结构 中 , 则 被 称 为 NL 端口 (NL_Port)。 交 换 机 通过 
特定 的 N 端口 或 者 是 NL 端口 名 称 来 识别 这 些 光 纤 通 道 节点 。 

(2) E_Port 

EE 端口 也 被 称 为 扩展 端口 ,用 于 进行 交换 机 之 间 的 连接 。 

(3) FL_Port 

FC 交换 机 的 一 个 交换 端口 可 以 作为 环 路 的 组 成 部 分 ,数据 可 以 从 交换 机 中 传输 到 环 
上 。 在 环 路 环境 下 正常 工作 的 一 个 交换 端口 称 之 为 FL_Port。 

(4) G_Port 

G 端口 是 一 种 通用 的 端口 ,根据 具体 的 实现 方案 ,可 以 作为 下 端口 或 是 EE 端口 使 用 ,也 
就 意味 着 G 端口 实际 上 可 以 被 用 作 两 种 端口 功能 的 组 合 。 由 于 G 端口 的 自 适应 性 ,在 进行 
FC-SAN 的 多 交换 机 配置 环境 时 ,G 端口 为 交换 机 提供 了 更 好 的 灵活 性 并 降低 了 每 个 端口 
所 耗费 的 管理 成 本 。 

目前 光纤 交换 机 支持 的 端口 速率 有 1Gb/s、2Gb/s、4Gb/s、8Gb/s。 

7. 常见 的 光 模 块 

(1) 光 通 道 交换 机 光 模 块 由 光电 子 器 件 、 功 能 电路 和 光 接 口 等 组 成 。 光 电子 器 件 包 括 
发 射 和 接收 两 部 分 ,如 图 3-16 所 示 。 光 模块 可 按 不 同类 别 划 分 。 

Q@ 按照 速率 分 ,包括 以 太 网 应 用 的 100Base( 百 兆 ).1000Base( 千 兆 ) ,10GE SDH 应 用 
的 155Mbps、622Mbps、2. 5Gbps、10Gbps。 

@ 按照 封装 分 ,包括 1X9、SFF、SFP、GBIC、XENPAK 、XFP。 

加 按照 光纤 的 类 型 分 ,包括 单 模 光纤 连接 器 、 多 模 光 纤 连接 器 。 

到 
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百 / 千 兆 以 太 网 、SDH 网 的 传输 


© 


1x9 封 装 SFF 封 装 GBIC 封 装 SFP 封 装 


10Gbps 的 以 太 网 


300pin 封 装 XENPAK 封 装 XFP 封 装 SFP+ 封 装 





1x9 封 装 的 光 模块 产品 最 早产 生 300pin ”最 先 被 应 用 于 SDH 和 10Gbps 以 太 网 
1 二 年 ,SC 接口， 作为 加 定 光 光纤 传输 网 络 的 模块 , 应 用 较 少 
光 本 休 关 昌 尖 过 中 的 更 要 吉 。 
粮 b 人 . IEEE.802.3ae 定 义 的 光 
I 
GBIC 支持 热 插 拔 的 特性 ,方便 更 新 维护 A 
及 故障 定位 是 Xenpak 光 模块 的 直接 改进 版 ， 
X，。 体积 缩小 了 40% 左 右 ,成 本 高 ,只 NS 
SEPP 尖 术 十 光村 兴 关 吉 演进 的 l 是 作为 一 种 过 渡 性 的 产品 出 现 
SFF ”又 一 分 支 ,目前 广泛 应 用 于 EPON p 2002 年 提出 的 XFP 多 元 协议 ,XFP 
本 XFP 。 光 模块 的 出 现 和 技术 的 飞速 发 展 ， 
沁 肥 其 体 各 小 .从 要 低 的 优 执 ,得 , 
SFP 前 5 交 品 人 > 具有 比 X; 和 XFP 封 装 更 紧凑 的 外 
plea 性 SFP+ 。 形 尺 二 ,各 SFP 尺 二 一样, 成 本 比 
小 型 化 的 优势 XFP 产 品 低 


图 3-16 常见 的 光 模 块 


@ 按照 光纤 连接 器 的 连接 头 形式 分 ,包括 FC、SC、ST、LC、MU、MTRJ 等 ,目前 常用 的 
有 FC、SC、ST、LC。 

(2) 常用 光纤 连接 介质 如 表 3-1 所 示 。 

按照 光纤 的 模式 分 类 ,可 分 为 单 模 光 纤 (Single Mode Fiber) 和 多 模 光 纤 (Multi Mode 
Fiber) 。 
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表 3-1 常用 光纤 连接 介质 
介质 类 型 发 射 器 速 率 距 高 
1Gb/s 2m~50km 
1550nm 长 波光 激光 器 
2Gb/s 2m~50km 
9pm 单 模 光 纤 1Gb/s 2m~10km 
1300nm 长 波光 激光 器 2Gb/s 2m 一 2km 
4Gb/s 2m~2km 
1Gb/s 0.5~500m 
50pm 多 模 光 纤 
2Gb/s 0.5~300m 
4Gb/s 0.5~170m 
850nm 短波 光 激 光 器 
1Gb/s 0.5~300m 
62. 5pm 多 模 光 纤 
2Gb/s 0.5~150m 
4Gb/s 0.5~70m 
8. HBA 卡 


FC HBA 卡 是 联系 服务 器 与 存储 区 域 网 络 的 设备 。 与 网 络 接口 卡 (Network Interface 
Card,NIC) 类 似 ,HBA 提供 了 服务 器 协议 和 光纤 网 络 交换 机 之 间 进 行 转换 的 能 力 。HBA 
连接 到 服务 器 的 PCI 总 线 , 通 过 软件 驱动 程序 来 提供 对 光纤 通道 网 络 的 支持 。HBA 根据 
厂商 的 实现 ,可 以 使 用 单 端口 或 者 多 端口 配置 。 在 多 端口 环境 中 ,数据 流 拥 有 额外 的 数 
据 路 径 , 用 于 通过 单个 HBA 在 服务 器 和 光纤 网 交换 机 之 间 传 输 数 据 。 一 个 HBA 可 以 拥 
有 多 个 端口 ,而 一 个 服务 器 也 可 以 使 用 多 个 HBA, 这 样 的 配置 更 具 灵 活性 ,可 以 实现 到 多 
个 节点 的 单独 连接 ,也 能 实现 到 同一 节点 的 路 径 元 余 以 避免 单 点 故障 的 风险 ,如 图 3-17 


所 示 。 


HBA(Host Bus Adapter): 主 机 总 线 适 
配器 ,就 是 连接 主机 IO 总 线 和 计算 
机 内 存 系统 的 LO 适配器 。 


分 类 :FC HBA、SCSIHBA 、SAS HBA、 


iSCSI HBA 等 。 


用 途 :用 于 服务 器 、 海 量 存储 子 网 络 、 
外 设 间 通 过 集线器 、 交 换 机 和 点 对 点 
连接 进行 双向 、 串 行 数据 通信 。 





图 3-17 FC HBA 卡 


or 


各 闫 HBA 卡 





FC HBA 的 主要 厂家 有 Emulex、Qlogic、LSI、JNI( 已 经 并 入 AMCC,LSI 存储 兼容 列表 
写 的 HBA 为 AMCC)、Agilent、Adaptec、IBM、HP、SUN。 
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9. FC HBA 卡 的 WWN 

FC HBA 的 WWN 具有 两 种 类 型 。 

(1) WWNN(World Wide Node Name) : 全 球 唯一 节点 名 ,由 光纤 通道 通过 映射 分 配给 
每 一 个 上 层 节 点 一 个 全 球 唯一 的 64 位 标识 符 , 一 个 HBA 上 的 所 有 端口 共享 一 个 WWNN。 
在 计算 机 处 理 中 ,一 个 WWNN 被 分 配给 一 个 接 入 到 光纤 网 中 的 节点 (一 个 端点 ,如 一 个 设 
备 )。WWNN 可 以 被 一 个 或 者 多 个 不 同 的 端口 (每 个 端口 拥有 不 同 的 WWPN ,并 且 属 于 同 
一 个 节点 ) 共 同 使 用 ,如 图 3-18 所 示 。 













® P2P 


FC 网 络 。 FC-AL 
eFC-SW 





WWNN 


图 3-18 FC HBA 卡 WWN 


(2) WWPN(World Wide Port Name) : 全 球 唯一 端口 名 字 , 即 分 配给 每 一 个 光纤 通道 
端口 的 全 球 唯一 的 64 位 标示 符 。 每 个 WWPN 被 该 端口 独 享 。WWPN 在 存储 区 域 网 络 中 
的 应 用 就 等 同 于 MAC 地 址 在 以 太 网 协议 中 的 应 用 。 


3.3.3 SCSI 协议 介绍 


1. SCSI 协议 与 存储 系统 

计算 机 与 存储 系统 之 间 的 通信 是 通过 总 线 来 完成 的 。 总 线 就 是 从 源 设 备 传输 数据 到 目 
标 设备 的 路 径 。 在 最 简单 的 情况 下 ,控制 器 的 高 速 缓存 作为 源 , 将 数据 传输 给 目标 磁盘 。 控 
制 器 首先 向 总 线 处 理 器 发 出 请 求 使 用 总 线 的 信号 。 该 请 求 被 接受 之 后 ,控制 器 高 速 缓存 就 
开始 执行 发 送 操作 。 在 这 个 过 程 中 ,控制 器 占用 了 总 线 , 总 线 上 所 连接 的 其 他 设备 都 不 能 使 
用 总 线 。 当 然 ,由 于 总 线 具备 中 断 功能 ,所 以 总 线 处 理 器 可 以 随时 中 断 这 一 传输 过 程 并 将 总 
线 控制 权 交 给 其 他 设备 ,以 便 执 行 更 高 优先 级 的 操作 。 

计算 机 中 布 满 了 总 线 一 一 从 一 个 位 置 向 另 一 个 位 置 传输 信息 和 电力 的 高 速 通道 。 例 
如 ,将 MP3 或 数码 相机 连接 到 计算 机 时 ,可 能 会 使 用 通用 串 行 总 线 (USB) 端 口 。 对 于 存储 
图 片 .音乐 等 的 小 型 电子 设备 ,USB 端口 完全 可 以 胜任 传输 数据 和 充电 的 工作 。 但 是 ,这 种 
总 线 还 不 足以 同时 支持 整 台 计 算 机 和 服务 器 以 及 其 他 许多 设备 ,如 图 3-19 所 示 。 

在 这 种 情况 下 ,就 需要 使 用 SCSI 这 样 的 总 线 。SCSI 直译 为 小 型 计算 机 系统 专用 接口 
(Small Computer System Interface) ,是 一 种 连接 主机 和 外 围 设备 的 接口 ,支持 包括 磁盘 驱 
动 器 磁带 机 、 光 驱 、 扫 描 仪 在 内 的 多 种 设备 。 它 由 SCSI 控制 器 进行 数据 操作 ,SCSI 控制 器 
相当 于 一 块 小 型 CPU, 有 自己 的 命令 集 和 缓存 。SCSI 是 一 种 特殊 的 总 线 结构 ,可 以 对 计算 
机 中 的 多 个 设备 进行 动态 分 工 操作 ,对 于 系统 同时 要 求 的 多 个 任务 可 以 灵活 机 动 地 适当 分 
配 并 动态 完成 。 

SCSI 协议 是 主机 与 存储 磁盘 通信 的 基本 协议 。DAS 使 用 SCSI 协议 实现 主机 服务 器 
与 存储 设备 的 互联 。 


80 


第 3 章 ”数据 存储 技术 





























































































































数据 /地 址 总 线 
主机 
适配器 于 
SCSIID7 
控制 信号 
SCSI 阵 列 SCSI 阵 列 
ID0 ID5 
LUNOL | LUN1) LUN 
[LoNna) Es 
图 3-19 SCSI 总 线 
2. SCSI 协议 模型 


为 了 便于 实现 和 理解 SCSI 的 各 个 协议 ,SCSI 采取 了 分 层 结构 。SCSI 可 分 为 三 层 , 即 
SCSI 应 用 层 .SCSI 传输 层 和 SCSI 互联 层 , 如 图 3-20 所 示 。 

















一 1/O 请 于 
oh J) om 
Cs 
SCSI 应 用 层 和 
命令 /数据 个 
SCSI 传 输 层 年 SCSI 传 输 层 | 
SCSI 互 联 层 全 SCSI 互 联 层 








3-20 SCSI 协 议 模型 


在 应 用 层 ,SCSI 协议 采用 C/S( 客 户 / 服 务 器 ) 体 系 架构 。SCSI 协议 客户 端 位 于 主机 
中 ,代表 上 层 应 用 程序 文件 系统 和 操作 系统 发 起 1/O 请 求 。SCSI 设备 服务 器 位 于 目标 设 
备 ( 如 存储 磁盘 ) 中 ,对 客户 端 1/O 请 求 做 出 响应 。 客 户 机 /服务 器 请 求 和 响应 通过 其 下 层 
协议 进行 传输 。 

在 传输 协议 层 ,SCSI 设备 之 间 通 过 一 系列 的 命令 实现 数据 块 的 传送 ,大 致 分 成 三 个 阶 
段 : 命令 的 执行 ,数据 的 传送 和 命令 的 确认 。 

SCSI 互联 层 完成 SCSI 设备 对 总 线 的 连接 以 及 发 送 方 和 目标 方 的 选择 等 功能 。 

3. SCSI 协议 寻 址 

为 了 对 连接 在 SCSI 总 线 上 的 设备 寻 址 ,SCSI 协议 引入 了 SCSI 设备 ID 和 逻辑 单元 号 
LUN。 在 SCSI 总 线 上 的 每 个 设备 都 必须 有 一 个 唯一 的 ID, 其 中 包括 服务 器 中 的 主机 总 线 
适配器 也 拥有 设备 ID。 每 条 总 线 最 多 可 允许 有 8 个 或 者 16 个 设备 ID。 
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存储 设备 可 能 包括 若干 个 子 设备 ,如 虚拟 磁盘 、 磁 带 驱动 器 和 介质 更 换 器 等 。 因 此 
SCSI 引 入 了 逻辑 单元 号 ,以 便于 对 存储 设备 中 的 子 设备 进行 寻 址 。 

传统 的 SCSI 适 配 卡 连接 单个 总 线 , 相 应 地 只 具有 一 个 总 线 号 。 一 个 服务 器 可 能 配置 
了 多 个 SCSI 控制 器 ,从 而 就 可 能 有 多 条 SCSI 总 线 。 在 引入 存储 网 络 之 后 ,每 个 光纤 通道 
HBA(Host Bus Adapter) 或 iSCSICInternet SCSIT 网卡 也 都 连接 一 条 总 线 ,必须 对 每 一 条 总 
线 分 配 一 个 总 线 号 ,在 它们 之 间 依 靠 不 同 的 总 线 号 加 以 区 分 。 因 此 ,可 以 使 用 一 个 三 元 描述 
标识 一 个 SCSI 目标 : 总 线 号 .设备 ID .多 辑 单元 号 ,如 图 3-21 所 示 。 


| | BS | 
Be a | 区 分 SCSI 总 线 上 不 同 的 设备 | 
| 区 分 SCSI 设 备 中 的 子 设备 | 


图 3-21 SCSI 协 议 寻 址 











4. Windows 系统 中 查看 SCSI 设备 ID 的 方式 

在 Windows 桌面 中 右 击 “ 我 的 电脑 ”选择 “管理 ”, 再 选择 “磁盘 管理 ”一 “映射 的 磁盘 ”， 
右 击 并 选择 “属性 ”, 在 “常规 ”选项 卡 中 查看 “位 置 " 选 项 的 内 容 , 就 是 SCSI ID 信息 ,如 图 3-22 
所 示 。 





HUAWEI S5500T SCSI Disk Device 


SS 


设备 类 型 ; 磁盘 驱动 器 

制造 商 ; (标准 磁盘 驱动 器 ) 
设备 状态 
辽 个 设备 运转 正常 














图 3-22 Windows 系统 中 查看 SCSI 设备 ID 
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5. Linux 系统 中 查看 SCSI 设备 ID 的 方式 

图 中 每 一 行 前 面 方 括号 中 条 目 分 别 是 SCSI host\channel target number、LUN tuple， 
每 个 元 素 由 冒号 分 开 。 当 有 多 个 SCSI 设备 条 目 时 , 按 元 组 升序 排列 。 

在 Linux 系统 的 命令 行 中 输入 命令 lsscsi, 如 图 3-23 所 示 。 


yp o/sesl 天 lsscsi 

dis! ATA ST3160318AS CC65 /dev/sda 
cd/dvd HL-DT-ST DVD-ROM DHION OM10 /dev/sro 
disk HUAWEI S5500T 2105 /dev/sdb 


图 3-23 ”Linux 系统 查看 SCSI 设 备 ID 





6. SCSI 命令 描述 块 (CDB) 

在 互联 层 完成 SCSI 设备 对 总 线 的 连接 ,以 及 发 送 方 和 目标 方 选择 的 基础 上 ,传输 层 协 
议 执行 实际 的 数据 传输 。 传 输 协 议 的 运行 过 程 包括 发 送 命令 .传输 数据 和 对 命令 执行 的 确 
认 。 发 起 方 通过 命令 描述 块 (CDB) 向 目标 方 发 送 具 体 的 命令 。 命 令 描 述 块 有 定 长 和 不 定 长 
两 种 格式 ,而 定 长 格式 又 有 6、10、12、16 字 节 不 同 的 长 度 规定 。 

(1) 操作 码 

操作 码 是 所 有 命令 描述 块 都 有 的 , 它 总 是 被 放 在 命令 描述 块 的 开头 一 个 字 节 。5 一 7 位 
是 组 代码 ,指示 该 命令 具体 属于 哪个 命令 组 , 它 决 定 CDB 的 长 度 ;0 一 4 位 则 是 具体 的 命令 
代码 。8 比特 在 理论 上 共有 256 个 可 能 的 操作 码 。 

(2) 命令 参数 

a 混杂 CDB 信息 : 该 参数 表示 与 具体 的 CDB 相关 的 信息 ,如 表示 逻辑 设备 号 。 

@ 逻辑 块 地 址 : 该 地 址 是 逻辑 单元 (比如 磁盘 ) 中 的 起 始 操作 块 的 位 置 。 

@ 传送 长 度 : 该 长 度 表 示 命 令 所 请 求 的 传送 量 ,通常 是 块 数 。 

四 参数 表 长 度 : 表示 需要 传送 到 存储 设备 的 参数 的 长 度 ,0 表示 不 需要 传递 参数 。 

@ 分 配 长 度 : 分 配 长 度 表 示 应 用 客户 为 缓冲 区 分 配 的 最 大 长 度 ,根据 具体 的 CDB 类 
别 ,可 能 是 字 节 数 ,也 可 能 是 块 数 。 

发 起 方 通过 命令 描述 块 (Command Description Block) 向 目标 方 发 送 具体 的 命令 。 

SPC(SCSI Primary Commands,SCSI 基础 命令 ) 规 范 定 义 了 CDB 的 标准 。CDB 结构 
如 图 3-24 所 示 。 
































操作 码 7 6 5 4 3 2 1 0 
第 ! 字 节 > 组 代码 命令 码 

命令 参数 

1~n-1 字 节 > | 混杂 CDB 信 息 | 逻辑 块 地 址 | 传送 长 度 。 | 参数 表 长 度 | 。 分 配 长度 
控制 码 
第 r 字 节 上 > | 厂商 指定 保留 NACA | 已 废弃 | 链接 字段 

图 3-24 SCSI 命 令 描述 块 (CDB) 
(3) 控制 码 


所 有 CDB 格式 的 最 后 一 个 字 节 为 控制 码 。 
NACA 比特 是 为 了 让 应 用 能 够 事先 声明 哪些 命令 执行 的 错误 或 异常 需要 善后 处 理 , 指 
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定 当 指 令 返 回 CHECK CONDITION 状态 的 时 候 , 自动 应 急 处 理 (Auto Contingent 
Allegiance, ACA) 是 否 会 被 创建 。 

链接 比特 可 以 被 用 作 跨 越 多 个 指令 延续 任务 。 比 特 为 1 时 表示 发 起 方 请 求 跨越 多 个 
SCSI 指令 延续 任务 。 

发 起 方 通过 命令 描述 块 (command description block) 向 目标 方 发 送 具体 的 命令 。 

7. SCSI 读 / 写 操作 过 程 

主机 需要 从 存储 设备 获取 数据 ,SCSI 读 操 作 需 要 完成 以 下 步骤 。 

(1) 主机 操作 系统 需 首先 将 用 户 的 读 取 操作 通过 SCSI I/O 的 应 用 程序 编程 接口 
(Application Programming Interface,API) 转 化 为 SCSI 的 读 操作 ,并 在 操作 完成 后 通过 相 
应 的 API 返 回响 应 的 值 。 

(2) 发 起 方 SCSI 总 线 由 空闲 阶段 进入 总 线 仲裁 和 选择 阶段 ,获得 对 总 线 使 用 权 以 及 对 
目标 方 的 选择 和 寻 址 。 

(3) 发 起 方 通过 CDB 向 目标 方 发 送 SCSI 的 读 命令 。 

(4) 目标 方 接收 到 该 命令 ,通过 设备 管理 器 在 指定 的 逻辑 单元 中 执行 该 命令 请 求 的 
操作 。 

(5) 目标 方 以 字 节 为 单位 向 发 起 方 传送 所 需要 的 数据 。 

(6) 在 数据 传输 完毕 后 ,目标 方向 发 起 方 发 送 命令 完成 的 报告 。 

(7) 发 起 方 接收 到 命令 完成 的 响应 ,总 线 可 恢复 到 空闲 阶段 。 

SCSI 的 写 操作 过 程 与 读 操作 过 程 类 似 , 但 数据 传送 的 方向 不 同 , 它 把 数据 从 发 送 方向 
目标 方 传送 ,如 图 3-25 所 示 。 

发 起 方 目标 方 


API 接 口 将 用 户 站 、 
加 | 读 操作 转换 为 | “一 
SCSI 读 操作 
Se 























获得 对 总 线 使 | ;图 通过 CDB 发 送 SCSI 命 令 
加 | 用 权 和 对 目标 | 和 
i : : 
引 传送 数据 : 一 | 在 指定 多 辑 单 
人 一 | 四 | 元 中 执行 该 全 
令 请 求 的 操作 














接收 到 目标 方 一 
四 | 命令 完成 的 响 

应 ， 总 线 可 恢 
复 到 空闲 阶段 











图 3-25 SCSI 读 / 写 操作 过 程 


8. SCSI 协 议 的 常见 类 型 

目前 常见 的 SCSI 类 型 及 各 自 性 能 特征 如 表 3-2 所 示 。 

(1) SCSI-1: 它 是 最 早 的 SCSI 接口 . 它 的 特点 是 支持 同步 和 异步 SCSI 外 围 设备 ,支持 
7 台 8 位 的 外 围 设备 ,最 大 数据 传输 率 为 5MB/s。 
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表 3-2 SCSI 类 型 及 各 自 性 能 特征 

















SCSI-1 5 8 8 Ultra 2 SCSI 80 16 16 
SCSI-2 10 8 8 Ultra-160 SCSI 160 16 16 
SCSI-3(Ultra SCSD 20 8 8 Ultra-320 SCSI 320 16 16 
SCSI-3(Ultra Wide SCSD 40 16 16 Ultra-640 SCSI 640 16 16 





























(2) SCSI-2: 它 是 SCSL1 的 后 续 接口 ,是 1992 年 提出 ,也 称 为 Fast SCSI。 如 果 采 用 原 
来 的 8 位 并 行 数据 传输 则 称 为 Fast SCSI, 它 的 数据 传输 率 为 10MB/s, 最 大 支持 连接 设备 
数 为 7 台 。 

(3) SCSI-3; 它 是 在 SCSI-2 之 后 推出 的 。 如 果 采 用 原来 的 8 位 并 行 数 据 传 输 时 称 为 
Ultra SCSI, 它 的 数据 传输 率 为 20MB/s, 最 大 支持 连接 设备 数 为 7 台 。 在 将 并 行 数据 传输 
的 总 线 带 宽 提 高 到 16 位 后 出 现 了 Ultra Wide SCSI, 它 的 传输 率 又 成 倍 提 高 , 即 达到 了 
40MB/s, 最 大 支持 连接 设备 数 为 15 台 。 

(4) Ultra2 SCSI: 它 是 在 Ultra SCSI 的 基础 上 推出 的 SCSI 接口 类 型 。 

(5) Ultral60 SCSI: 它 是 Ultra2 SCSI 的 更 新 接口 ,使 用 和 Ultra2 SCSI 完全 一 样 的 接 
口 电缆 及 终结 器 ,但 是 由 于 Ultral60 SCSI 采用 双 缘 传输 频率 (Double Transition 
Clocking) ,而 Ultra2 SCSI 采用 的 是 单 缘 传输 频率 ,因此 Ultra160 SCSI 的 传输 率 是 前 者 的 
两 倍 , 即 160MB/s。 

(6) Ultra320 SCSI: 它 的 技术 规范 为 SCSI-3 或 SPL4。Ultra320 SCSI 单 通道 的 数据 
传输 速率 最 大 可 达 320MB/s。 

(7) Ultra640 SCSI: 它 的 技术 规范 为 SCSI-3 或 SPI-5。Ultra640 SCSI 的 数据 传输 速 
率 最 大 可 达 640MB/s。 


3.3.4 iSCSI 协议 介绍 


1. iSCSI 协议 
通过 SCSI 控制 卡 的 使 用 可 以 连接 多 个 设备 ,形成 自己 的 “网 络 ”, 但 是 这 个 “网 络 ” 仅 局 
限于 与 所 附加 的 主机 进行 通信 ,并 不 能 在 以 太 网 上 共享 。 如 果 能 够 通过 SCSI 协议 组 成 网 
络 , 并 且 能 够 直接 挂 载 到 以 太 网 上 作为 网 络 节点 和 其 他 设备 进行 互联 共享 ,那么 SCSI 就 可 
以 得 到 更 广泛 的 应 用 。 所 以 ,经 过 对 SCSI 的 改进 ,就 推出 了 iSCSI 这 个 协议 。 基 于 iSCSI 
协议 的 IP-SAN 是 把 用 户 的 请 求 转换 成 SCSI 代码 ,并 将 数据 封装 进 IP 包 内 并 在 以 太 网 中 
传输 。 
iSCSI 方案 最 早 是 由 Cisco 和 IBM 两 家 发 起 ,并 且 由 Adaptec、Cisco、HP、IBM、 
Quantum 等 公司 共同 倡导 , 它 提供 基于 TCP 传输 并 将 数据 驻 留 在 SCSI 设备 上 的 方法 。 
iSCSI 标准 草案 在 2001 年 推出 ,并 经 过 多 次 论证 和 修改 ,于 2002 年 提交 IETF ,在 2003 年 
2 月 ,iSCSI 标准 正式 发 布 。iSCSI 技术 的 重要 贡献 在 于 其 对 传统 技术 的 继承 和 发 展 : 其 一 ， 
SCSI(Small Computer System Interface, 小 型 计算 机 系统 接口 ) 技 术 是 被 磁盘 、 磁 带 等 设备 
广泛 采用 的 存储 标准 ,从 1986 年 诞生 起 到 现在 仍然 保持 着 良好 的 发 展 势头 ;其 二 ,沿用 
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TCP/IP 协议 ,TCP/IP 在 网 络 方面 是 最 通用 、 最 成 熟 的 协议 , 且 IP 网 络 的 基础 建设 非常 完 
善 。 这 两 点 为 iSCSI 的 无 限 扩展 提供 了 坚实 的 基础 。 

IP 网 络 的 普及 性 将 使 得 数据 可 以 通过 LAN、WAN 或 者 是 通过 Internet 利用 新 型 IP 
存储 协议 传输 ,iSCSI 即 是 在 这 个 思想 的 指导 下 进行 研究 和 开发 的 。iSCSI 是 基于 IP 协议 
的 技术 标准 ,实现 了 SCSI 和 TCP/IP 协议 的 融合 ,对 众多 的 以 太 网 用 户 而 言 , 只 需要 极 少 的 
投资 ,就 可 以 方便 ,快捷 地 对 信息 和 数据 进行 交互 式 传输 和 管理 。 

iSCSICInternet SCSD 把 SCSI 命令 和 块 状 数据 封装 在 TCP 中 在 IP 网 络 传输 ,基本 出 
发 点 是 利用 成 熟 的 IP 网 络 技术 来 实现 和 延伸 SAN, 如 图 3-26 所 示 。 








SCSI 块 指令 





其 他 SCSI 指 令 





物理 层 (以 太 网 ) 





图 3-26 IP 网 络 技术 SAN 


2. iSCSI 体系 结构 

在 支持 iSCSI 的 系统 中 ,用 户 在 一 台 SCSI 存储 设备 上 发 出 存 数 据 或 取 数据 的 命令 , 操 
作 系 统 对 该 请 求 进行 处 理 , 并 将 该 请 求 转换 成 一 条 或 者 多 条 SCSI 指令 ,然后 再 传 给 目标 
SCSI 控制 卡 。iSCSI 节点 将 指令 和 数据 封装 (Encapsulation) 起 来 ,形成 一 个 iSCSI 包 , 然 后 
该 数据 封装 被 传送 给 TCP/IP 层 .再 由 TCP/IP 协议 将 iSCSI 包 封装 成 IP 协议 数据 以 适合 
在 网 络 中 传输 。 也 可 以 对 封装 的 SCSI 命令 进行 加 密 处 理 , 然 后 在 不 安全 的 网 络 上 传送 。 

数据 包 可 以 在 局 域 网 或 Internet 上 传送 。 在 接收 存储 控制 器 上 ,数据 报 重新 被 组 合 , 然 
后 存储 控制 器 读 取 iSCSI 包 中 的 SCSI 控制 命令 和 数据 并 发 送 到 相应 的 磁盘 驱动 器 上 ,磁盘 
驱动 器 再 执行 初始 计算 机 或 应 用 所 需求 的 功能 。 如 果 发 送 的 是 数据 请 求 , 那 么 将 数据 从 磁 
盘 驱 动 器 中 取出 并 进行 封装 后 ,发 送 给 发 出 请 求 的 计算 机 ,而 整个 过 程 对 于 用 户 来 说 都 是 透 
明 的 。 尽 管 SCSI 命令 的 执行 和 数据 准备 可 以 通过 使 用 标准 TCP/IP 和 现成 的 网 络 控制 卡 
的 软件 来 完成 ,但 是 在 利用 软件 完成 封装 和 解 封装 的 情况 下 ,在 主机 处 理 器 上 实现 这 些 功 能 
需要 很 多 的 CPU 运算 周期 来 处 理 数据 和 SCSI 命令 。 如 果 将 这 些 事务 交 给 专门 的 设备 处 
理 , 则 可 以 将 对 系统 性 能 的 影响 减少 到 最 小 程度 ,因此 ,发 展 在 iSCSI 标准 下 并 执行 SCSI 命 
令 和 完成 数据 准备 的 专用 iSCSI 适配器 是 有 必要 的 。iSCSI 适配器 结合 了 NIC 和 HBA 的 
功能 。 这 种 适配器 以 块 方式 取得 数据 ,利用 TCP/IP 处 理 引 擎 在 适 配 卡 上 完成 数据 分 化 和 
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处 理 ,然后 通过 IP 网 络 送出 IP 数据 包 。 这 些 功 能 的 完成 使 用 户 可 以 在 不 降低 服务 器 性 能 
的 基础 上 创建 一 个 基于 IP 的 SAN。 
iSCSI 节点 将 SCSI 指令 和 数据 封装 成 iSCSI 包 , 然 后 该 数据 封装 被 传送 给 TCP/IP 层 ， 
再 由 TCP/IP 协议 将 iSCSI 包 封 装 成 IP 协议 数据 以 适合 在 网 络 中 传输 ,如 图 3-27 所 示 。 





iSCSI 节点 


iSCSI 节点 


SS c , 绰 IP 网 络 六 | 


mitiato 司 











3-27 iSCSI 体系 结构 


3. iSCSI 的 发 起 端 与 目标 端 

iSCSI 的 通信 体系 仍然 继承 了 SCSI 的 部 分 特性 ,在 iSCSI 通信 中 ,具有 一 个 发 起 I/O 
请 求 的 启动 设备 (Initiator) ,以 及 一 个 响应 请 求 并 执行 实际 W/O 操作 的 目标 设备 (Target) 。 
在 Initiator 和 Target 建立 连接 后 ,Target 在 操作 中 作为 主 设备 控制 整个 工作 过 程 。 

(1) iSCSI Initiator 

iSCS Initiaor 可 分 为 三 种 , 即 软件 Initiator 驱动 程序 、 硬 件 的 TOE (TCP Offload 
Engine,TCP 卸载 引擎 ) 卡 以 及 iSCSI HBA 卡 。 就 性 能 而 言 ,软件 Initiator 驱动 程序 最 差 ， 
TOE 卡 居中 ,iSCSI HBA 卡 最 佳 。 

(2) iSCSI Target 

iSCSI Target 通常 为 iSCSI 磁盘 阵列 .iSCSI 磁带 库 等 。 

iSCSI 协议 为 Initiator 和 Target 定义 了 一 套 命 名 和 寻 址 方法 。 所 有 的 iSCSI 节点 都 是 
通过 其 iSCSI 名 称 被 标识 的 。 这 种 命名 方式 使 得 iSCSI 名 称 不 会 与 主机 名 混淆。 

iSCSI 使 用 iSCSI Name 来 唯一 鉴别 启动 设备 和 目标 设备 。 地 址 会 随 着 启动 设备 和 目 
标 设备 的 移动 而 改变 ,但 是 名 字 始 终 是 不 变 的 。 建 立 连接 时 ,启动 设备 发 出 一 个 请 求 ,目标 
设备 接收 到 请 求 后 ,确认 启动 设备 发 起 的 请 求 中 所 携带 的 iSCSI Name 是 否 与 目标 设备 绑 
定 的 iSCSI Name 一 致 ,如 果 一 致 , 便 建立 通信 和 连接。 每 个 iSCSI 节点 只 允许 有 一 个 iSCSI 
Name, 一 个 iSCSI Name 可 以 被 用 来 建立 一 个 启动 设备 到 多 个 目标 设备 的 连接 ,多 个 iSCSI 
Name 可 以 被 用 来 建立 一 个 目标 设备 到 多 个 启动 设备 的 连接 ,如 图 3-28 所 示 。 

4. iSCSI 数据 包 封装 模型 

支持 iSCSI 的 服务 器 可 以 配置 一 块 专用 的 iSCSI 主机 总 线 适 配器 卡 。 所 有 的 SCSI 命 
令 都 被 封装 成 iSCSI 协议 数据 单元 (Protocol Data Unit, PDU) ,iSCSI 会 利用 TCP/IP 协议 
栈 中 传输 层 的 TCP 协议 为 连接 提供 可 靠 的 传输 机 制 ,在 封装 TCP 数据 段 头 以 及 卫 数据 包 
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交付 [isSGSL | 
@ SCSI 层 负责 生成 CDB (命令 Initiator Target 
述 符 块 ) .将 CDB 传 给 iSCSI 5 { SG f 


aiSCSI 层 负责 生成 iSCSI PDU (协议 数据 
单元 ) ,并 通过 IP 网 络 将 PDU 发 给 Target 


目标 器 (Target) 


iSCSI | iSCSI | 


miSCSI 层 收 到 PDU, 将 CDB 传 给 SCSI 层 TCP 和 TOP | 
mSCSI 层 负责 解释 CDB 的 意义 ,必要 时 
发 这 响应 El JE 


Link Link | 
El 
图 3-28 iSCSI 的 启动 端 与 目标 端 


头 后 ,其 内 部 所 封装 的 SCSI 命令 或 数据 对 于 底层 网 络 设备 而 言 是 不 可 见 的 ,网 络 设备 只 会 
将 其 视 为 普通 IP 数据 包 进行 传递 ,从 而 实现 了 SCSI 指令 和 数据 的 透明 传输 。 

iSCSI 协议 是 将 SCSI 的 远程 过 程 调用 (Remote Procedure Call, RPC) 映 射 到 IP 协议 的 
过 程 。iSCSI 协议 提供 了 独立 于 其 所 携带 的 SCSI CDB 层 的 概念 。iSCSI 请 求 传递 SCSI 命 
令 ,iSCSI 响应 处 理 SCSI 响应 和 状态 。iSCSI 为 基于 IP 协议 的 PDU 提供 了 一 个 在 SCSI 的 
命令 结构 内 映射 的 机 制 ,SCSI 的 命令 及 参数 被 填充 在 一 定 长 度 的 数据 块 内 进行 传输 。 一 个 
iSCSI 翻译 器 取得 SCSI CDB (Command description Block, 命 令 描 述 块 ), 并 将 其 映射 为 
iSCSI PDU ,在 TCP 连接 上 发 送 到 一 个 目标 iSCSI 设备 。 翻 译 器 通过 连接 ID 识别 一 组 映 
射 SCSI 连接 的 TCP 连接 。 从 启动 设备 和 目标 设备 的 角度 来 看 ,这 个 连接 就 像 是 一 个 普通 
的 SCSI 通信 一 样 , 整 个 IP 传输 对 于 启动 器 设备 和 目标 设备 而 言 是 透明 的 。 启 动 设备 或 目 
标 设备 可 以 是 一 个 iSCSI 设备 ,能够 用 TCP 直接 在 IP 网 中 通信 。 

所 有 的 SCSI 命令 都 被 封装 成 iSCSI 协议 数据 单元 ,iSCSI 利用 TCP/IP 协议 栈 中 传输 
层 的 TCP 协议 为 连接 提供 可 靠 的 传输 机 制 ,如 图 3-29 所 示 。 



























































以 太 网 帧 头 IP 包 头 TCP 段 头 数据 (iSCSID FCS 
源 端口 。 | 。 目的 端口 基本 报头 分 段 (BHS) 
下 附加 报头 分 段 (BHS) 
确认 号 
报头 校 验 
位 移 | 于 留 lualP[a|s[f| 窑 口 大 小 
紧急 指针 “| 校 验 和 2 
选项 和 填充 数据 校 验 














图 3-29 iSCSI 数据 包 封装 模型 
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3.3.5 ”IP SAN 的 产生 与 发 展 


1. FC SAN 与 IP SAN 

前 面 介绍 了 基于 FC 协议 的 FC SAN ,主要 应 用 于 对 于 性 能 、 宛 余 度 和 可 获得 性 都 有 较 
高 要 求 的 中 高 端 存储 需求 。 由 于 其 高 昂 的 价格 、 技 术 和 配置 复杂 、 有 限 的 传输 距离 不同 厂 
商 设备 互联 共享 等 问题 ,也 限制 了 其 使 用 的 范围 。 为 了 提高 SAN 的 普及 程度 和 应 用 范围 ， 
并 充分 利用 SAN 本 身 所 具备 的 架构 优势 ,SAN 的 发 展 方向 开始 考虑 和 已 经 普及 并 且 相 对 
廉价 的 IP 网 络 进行 融合 。 

基于 TCP/IP 协议 的 以 太 网 的 IP-SAN 存储 开始 进入 人 们 的 视野 ,并 得 到 了 网 络 厂商 
的 广泛 支持 。 与 基于 光纤 通道 技术 的 FC-SAN 相 比 较 而 言 ,IP-SAN 存储 系统 具有 节约 大 
量 成 本 、 加 快 实施 速度 、 优 化 可 靠 性 以 及 增强 扩展 能 力 等 优点 。 

简单 而 言 ,IP SAN 存储 就 是 使 用 IP 网 络 而 不 使 用 光纤 网 络 来 做 服务 器 和 存储 设备 的 
连接 技术 。IP SAN 存储 是 基于 IP 网 络 来 实现 块 级 数据 存储 的 方式 。 目 前 除了 标准 已 获 
通过 的 iSCSI, 还 有 FCIP iFCP 等 标准 。 其 中 iSCSI 发 展 最 为 迅速 ,已 经 成 为 IP 存储 的 中 
流 研 柱 。 基 于 iSCSI 的 SAN 的 目的 就 是 要 使 用 本 地 iSCSI Initiator( 启 动 器 ,通常 为 服务 
器 ) ,通过 IP 网 络 和 iSCSI Target( 目 标 器 ,通常 为 存储 设备 ) 来 建立 SAN 网 络 ,如 图 3-30 
所 示 。 





ic FC > 


SCSI 























3-30 iFC SAN 与 IP SAN 


2. IP SAN 

IP SAN 是 标准 的 TCP/IP 协议 和 SCSI 指令 集 相 结合 的 产物 ,以 其 协议 标准 化 、 整 体 
成 本 低廉 和 维护 简便 等 优势 成 为 网 络 存储 领域 的 重要 产品 形态 。 

IP SAN 是 基于 IP 网 络 来 实现 数据 块 传输 的 网 络 存储 形态 .与 传统 FC SAN 的 最 大 区 
别 在 于 传输 协议 和 传输 介质 的 不 同 。 目 前 常见 的 IP SAN 协议 有 iSCSI、FCIP iFCP 等 ,其 
中 iSCSI 是 发 展 最 快 的 协议 标准 ,人 们 所 说 的 IP SAN 大 多 数 就 是 指 基于 iSCSI 实现 
的 SAN。 

IP SAN 把 SCSI 指令 集 封装 在 了 TCP/IP 上 。 这 就 好 比 不 管 我 们 是 选择 哪 家 快递 公 
司 , 最 终 都 是 把 我 们 想 要 发 送 的 东西 发 送 至 目的 地 ,都 是 由 我 们 发 起 寄 送 请 求 ,快递 公司 进 
行 响应 ,差别 只 在 于 快递 公司 不 同 而 已 。iSCSI 则 是 全 新 建立 在 TCP/IP 和 SCSI 指令 集 的 
基础 上 的 标准 协议 ,所 以 其 开放 性 和 扩展 性 更 好 。 这 也 是 其 大 行 其 道 的 原因 。 
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以 TCP/IP 协议 为 底层 传输 协议 ,采用 以 太 网 作为 承载 介质 构建 起 来 的 存储 区 域 网 络 
架构 ,实现 IP-SAN 的 典型 协议 是 iSCSI, 它 定义 了 SCSI 指令 集 在 IP 中 传输 的 封装 方式 ,如 


图 3-31 所 示 。 
午 m。 秆 mm， 午 , 
LAN 


服务 器 HBA 








服务 器 HBA 






TCP/IP 网 络 以 太 网 交换 机 


元 
存储 设备 加 多 存储 设备 


3-31 IP-SAN 的 典型 协议 iSCSI 


3. IP SAN 的 优势 

IP SAN 主要 基于 iSCSI 实现 。iSCSI 协议 是 建立 在 TCP/IP 协议 和 SCSI 指令 集 的 基 
础 之 上 的 标准 化 协议 。 正 是 其 优良 的 基因 决定 了 其 巨大 的 优势 。 

那么 ,TCP/IP 和 SCSI 有 什么 优势 呢 ? 

第 一 ,它们 都 是 标准 化 协议 ,所 以 有 大 量 的 标准 化 设备 可 供 采 用 。 

第 二 ,它们 都 是 已 经 发 展 多 年 的 成 熟 性 协议 ,具有 广泛 的 群众 基础 。 

第 三 ,作为 标准 在 各 类 软件 硬件 开发 中 已 经 广泛 采用 。 

IP SAN 全 盘 继 承 了 父母 的 优良 基因 ,从 而 具备 了 很 多 方面 的 优势 。 通 过 这 些 优 势 ,给 
客户 带 来 了 哪些 好 处 呢 ? 最 重要 的 一 点 就 是 IP SAN 总 体 拥有 成 本 (TCO) 低 ,非常 有 利于 
其 广泛 地 应 用 和 推广 。 总 体 拥有 成 本 (TCO) 是 包含 很 多 内 容 的 ,比如 建设 一 个 存储 系统 ， 
则 需要 购买 磁盘 阵列 、 接 入 设备 (HBA 和 交换 机 ) ,需要 人 员 培 训 \ 日 常 维护 后续 扩容 、 容 灾 
扩展 等 。IP SAN 因为 IP 网 络 的 广泛 应 用 优势 ,可 以 大 幅 降 低 单 次 采购 的 接 入 设备 采购 成 
本 、 减 少 维护 成 本 ,而 且 后 续 扩容 和 网 络 扩展 成 本 也 大 幅 降 低 , 如 图 3-32 所 示 。 

4. IP SAN 面临 的 挑战 

尽管 IP 存储 标准 早已 建立 且 应 用 .但 是 将 其 真正 广泛 应 用 到 存储 环境 中 还 需要 解决 以 
下 几 个 关键 问题 。 

(1) 数据 安全 性 : 企业 网 络 中 最 重要 的 还 是 数据 ,所 以 ,SAN 中 保存 的 数据 的 安全 性 和 
可 靠 性 应 当 受 到 格外 的 重视 。 传 统 的 FC-SAN 由 于 FC 网 络 的 异 构 性 ,和 传统 的 业务 IP 网 
络 从 物理 上 隔离 ,从 而 保证 了 在 SAN 中 传输 和 存储 的 数据 安全 性 。 然 而 , 当 存 储 设备 通过 
IP 架构 进行 远程 连接 时 ,尽管 IP 协议 可 以 应 用 IPSec 以 保障 数据 的 安全 性 ,但 也 只 能 提供 
数据 在 网 络 传输 过 程 的 动态 安全 性 ,并 不 能 保证 数据 被 保存 在 存储 设备 上 的 静态 安全 性 。 
由 于 IP 网 络 是 开放 式 网 络 , 仍 然 存在 众多 安全 漏洞 .并 且 使 用 IP 网 络 构建 的 IP-SAN 和 传 
统 的 I 了 P 业务 很 难 从 物理 上 完全 隔离 。 所 以 ,提高 数据 在 传输 过 程 的 安全 性 和 在 存储 设备 中 
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不 需要 专用 的 HBA 卡 和 光纤 交换 机 ,普通 
BR 的 以 大 册 卡 和 以 大 网 交 按 机 就 可 以 存储 和 
服务 器 的 连接 












理论 上 IP 网 络 可 到 过 的 地 方 就 可 以 使 用 IP SAN， 








| er mr] 





所 着 10Gbps 以 大 网 的 迅速 发 展 ，IP SAN 单 端 
口 带宽 扩展 到 10Gbps 已 经 是 发 展 的 必然 





扩展 方便 





图 3-32 ”IP-SAN 的 优势 


的 安全 性 是 IP 存储 面临 的 严峻 问题 。 

(2) TCP 负载 空闲 引擎 : 由 于 IP 协议 是 无 连接 不 可 靠 的 传输 协议 ,数据 的 可 靠 性 和 完 
整 性 是 由 TCP 协议 来 提供 的 。 而 TCP 为 了 完成 数据 的 排序 工作 ,需要 占用 较 多 的 主机 
CPU 资源 ,从 而 导致 用 户 业务 处 理 延迟 的 增加 。 所 以 ,iSCSI 可 以 采用 一 种 被 称 为 TCP 务 
载 引 擎 (TCP Off 一 loading Engine,TOE) 的 设备 ,将 原本 需要 由 CPU 处 理 完成 的 TCP 封 
装 和 解 封装 过 程 下 移 至 TOE 网 卡 完成 ,使 CPU 更 专注 于 用 户 事务 请 求 处 理 和 数据 包 本 身 
的 处 理 , 可 以 有 效 地 降低 主机 CPU 的 负载 ,从 而 提升 CPU 的 处 理性 能 。 

(3) 块 数据 传输 问题 : FC 存储 协议 具有 速率 高 、 延 迟 低 的 特点 ,适合 传输 大 块 的 数据 
(Block Data) ;而 从 网 络 协 议 上 来 看 ,IP 协议 传输 速率 相对 较 低 、 延 迟 较 高 ,比较 适合 传输 大 
量 的 小 块 消息 。 并 且 ,FC 在 传输 数据 时 将 数据 封装 为 2KB 左右 的 数据 帧 进行 传输 ,而 以 太 
网 则 将 数据 封装 为 1. 5KB 的 数据 包 在 IP 网 络 中 进行 传递 ,所 以 IP 协议 对 大 块 数据 的 传输 
的 效率 还 有 待 提高 ,如 图 3-33 所 示 。 












数据 安全 性 


数据 在 传输 过 程 的 安全 性 和 在 存储 设备 中 的 
”安全 性 是 IP SAN 存 储 面临 的 严峻 问题 








IP SAN TCP 负 载 
主要 挑战 TCP 为 了 完成 数据 的 排序 工作 , 需要 占用 较 多 的 
使。 主机 CPU 资 源 ,导致 用 户 业务 处 理 延 壕 的 增加 
| 块 数据 传输 了 
| 二 Ptjix 比 较 笑 全 传输 大 量 的 小 块 消息 ,对 大 块 


数据 的 传输 效率 还 有 待 提高 | 





图 3-33 IP SAN 面临 的 挑战 


5. FC SAN 与 IP SAN 的 比较 
FC SAN 与 IP SAN 的 比较 如 表 3-3 所 示 。 
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表 3-3 FC SAN 与 IP SAN 的 比较 























描 述 FC SAN IP SAN 
网 络 速度 1Gbps、2Gbps、4Gbps、8Gbps 1Gbps、10Gbps 
网 络 架构 “| 单独 建设 光纤 网 络 和 HBA 卡 使 用 现 有 IP 网 络 
传输 距离 “| 受到 光纤 传输 距离 的 限制 理论 上 没有 距离 限制 
管理 ,维护 | 技术 和 管理 较 复杂 与 JP 设备 一 样 操作 简单 
兼容 性 兼容 性 差 与 所 有 IP 网 络 设备 都 兼容 
性 能 非常 高 的 传输 和 读 写 性 能 目前 主流 传输 速率 为 1Gbps, 并 正在 发 展 





购买 (光纤 交换 机 .HBA 卡 .光纤 磁盘 阵列 等 )、| 与 FC-SAN 相 比 ,购买 与 维护 成 本 都 较 








成 本 维护 (培训 人 员 ,系统 设置 与 监测 等 ) 成 本 高 。 | 低 ,有 更 高 的 投资 收益 比例 
i ee 本 各 可以 实现 本 地 和 异地 容 灾 , 且 忆 
安全 性 | 较 高 较 低 








3.3.6 ”IP SAN 的 组 成 和 组 网 连接 


1. IP-SAN 典型 组 网 

(1) 直 连 : 主机 与 存储 之 间 直 接 通过 以 太 网 卡 、TOE 卡 或 iSCSI HBA 卡 连接 ,这 种 组 
网 方式 简单 .经济 ,但 较 多 的 主机 分 享 存储 资源 比较 困难 。 

(2) 单 交换 : 主机 与 存储 之 间 由 一 台 以 太 网 交换 机 ,同时 主机 安装 以 太 网 卡 或 TOE 或 
iSCSI HBA 卡 以 实现 连接 。 这 种 组 网 结构 使 多 台 主 机 能 共同 分 享 同一 台 存 储 设备 ,扩展 性 
强 , 但 交换 机 处 存在 单 点 故障 。 

(3) 双 交 换 : 同一 台 主 机 到 存储 阵列 端 可 由 多 条 路 径 连 接 , 扩 展 性 强 , 避 免 了 在 以 太 网 
交换 机 处 形成 单 点 故障 ,如 图 3-34 所 示 。 


单 交 换 双 交 换 








人 We 
应 用 服务 器 。 应 用 服务 器 





以 太 网 交换 机 以 太 网 交换 机 以 太 网 交换 机 























存储 设备 存储 设备 存储 设备 
图 3-34 IP-SAN 典型 组 网 
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2. IP-SAN 的 组 件 

IP-SAN 基于 十 分 成 熟 的 以 太 网 技术 ,由 于 设置 配置 技术 简单 、 低 成 本 的 特色 相当 明 
显 ,而 且 普通 服务 器 或 PC 只 需要 具备 网 卡 即 可 共享 和 使 用 大 容量 的 存储 空间 。 由 于 是 基 
于 卫 协 议 的 ,所 以 能 容纳 所 有 IP 协议 网 络 中 的 部 件 。 用 户 可 以 在 任何 需要 的 地 方 创建 实 
际 的 SAN 网络 ,而 不 需要 专门 的 光纤 通道 网 络 在 服务 器 和 存储 设备 之 间 传 送 数据 。 同 时 ， 
因为 没有 光纤 通道 对 传输 距离 的 限制 ,IP-SAN 使 用 标准 的 TCP/IP 协议 ,数据 即 可 在 以 太 
网 上 进行 传输 。IP-SAN 网 络 对 于 那些 要 求 流 量 不 太 高 的 应 用 场合 以 及 预算 不 充足 的 用 户 
是 一 个 非常 好 的 选择 ,如 图 3-35 所 示 。 

IP-SAN 由 Q@ iSCSI 存储 设备 ; 四 以 太 网 交换 机 ; 加 以 太 网 卡 和 iscsi initiator 软件 ; 
四 以 太 网 网 线 组 成 。 


生生 了 














用 户 A 用 户 B 服务 器 A 服务 器 B 
以 太 网 卡 以 太 网 卡 以 太 网 卡 iSCSIHBA 卡 
一 < 一 LAN 
Es 
以 大 网 交换 机 
iSCSI 存 储 设备 A iSCSI 存储 设备 B 


3-35 ”IP-SAN 的 组 件 


3. iSCSI 连接 方式 

iSCSI 设备 通常 使 用 IP 接口 作为 其 主机 接口 ,并 可 以 通过 与 传统 以 太 网 交换 机 的 连 
接 ,构建 一 个 基于 TCP/IP 协议 的 存储 区 域 网 络 。 根 据 主 机 端 所 采用 的 连接 方式 的 不 同 ， 
iSCSI 设备 与 主机 的 连接 通常 有 三 种 形式 。 

(1) 以 太 网 卡 十 Initiator 软件 方式 : 采用 这 种 方式 的 主机 使 用 标准 的 以 太 网 卡 (NIC) 
与 网 络 进行 连接 。iSCSI 层 和 TCP/IP 协议 栈 功 能 通过 主机 CPU 运行 软件 计算 完成 。 由 
于 这 种 方式 直接 使 用 传统 主机 系统 通用 的 NIC 卡 , 所 以 成 本 最 低 , 但 是 由 于 需要 占用 CPU 
资源 进行 iSCSI 协议 和 TCP/IP 协议 处 理 ,所 以 会 导致 主机 系统 性 能 的 下 降 。 

(2) TOE 十 Initiator 软件 方式 : 采用 这 种 方式 的 主机 使 用 TOE(TCP offload Engine， 
TCP 务 载 引 擎 ) 网 卡 ,iSCSI 协议 的 功能 仍然 由 主机 的 CPU 完成 ,但 是 TCP 协议 处 理 则 交 
由 TOE 网 卡 完成 .从 而 有 效 减轻 了 主机 端的 负担 。 

(3) iSCSI HBA 卡 方式 : 采用 这 种 方式 的 主机 ,其 iSCSI 协议 功能 及 TCP/IP 协议 栈 功 
能 均 由 iSCSI HBA 卡 完成 ,对 主机 的 开销 占用 最 小 。 

IP-SAN 根据 主机 与 存储 的 连接 方式 不 同 , 可 以 分 为 三 种 ,如 图 3-36 所 示 。 

4. 以 太 网 卡 十 Initiator 软件 实现 方式 

服务 器 .工作 站 等 主机 设备 使 用 标准 的 以 太 网 卡 , 通 过 以 太 网 线 直接 与 以 太 网 交换 机 连 
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接 ,iSCSI 存储 也 通过 以 太 网 线 连接 到 以 太 网 交换 机 上 .或 直接 连接 到 主机 的 以 太 网 卡 上 。 
在 主机 上 安装 Initiator 软件 以 便 将 以 太 网 卡 虚拟 为 iSCSI 卡 , 用 以 接收 和 发 送 iSCSI 数据 
报 文 ,从 而 实现 主机 和 iSCSI 设备 之 间 的 iSCSI 协议 和 TCP/IP 协议 传输 功能 。 由 于 采用 
普通 的 标准 以 太 网 卡 和 以 太 网 交换 机 ,无 须 额 外 配置 适配器 ,因此 此 种 方式 硬件 成 本 最 低 。 
缺点 是 进行 iSCSI 包 文 和 TCP/IP 包 文 转换 需要 占用 主机 端的 资源 ,使 主机 的 运行 开销 增 
加 而 导致 系统 性 能 下 降 。 不 过 在 对 于 IO 和 带宽 性 能 要 求 较 低 的 应 用 环境 中 基本 能 够 满 
足 数据 访问 要 求 ,如 图 3-37 所 示 。 


加 EE 





以 太 网 卡 硬件 TOE 网 卡 iSCSIHBA 卡 
+Initiator +Initiator 
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3-36 IP-SAN 存储 连接 方式 
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太 网 连接 
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存储 设备 一 一 以 太 网 连接 


图 3-37 ”以太 网 卡 十 Initiator 软件 实现 方式 


5. TOE 网 卡 十 Initiator 软件 实现 方式 

智能 以 太 网 卡 可 以 将 网 络 数据 流量 的 处 理工 作 全 部 转 到 网 卡 上 的 集成 硬件 中 进行 ， 
TCP/IP 协议 栈 功 能 由 TOE 网 卡 完成 ,而 iSCSI 层 的 功能 仍旧 由 主机 来 完成 ,由 此 ,采用 
TOE 网 卡 可 以 大 幅度 提高 数据 的 传输 速率 。 与 纯 软 件 的 方式 相 比 较 而 言 , 这 种 方式 部 分 降 
低 了 主机 系统 的 运行 开销 而 又 不 会 使 网 络 构建 成 本 过 多 增加 ,是 一 种 比较 折 中 的 配置 方案 ， 
如 图 3-38 所 示 。 

6. iSCSI HBA 卡 连接 方式 

在 主机 上 安装 iSCSI HBA 适 配 卡 ,从 而 实现 主机 与 交换 机 之 间 、 主 机 与 存储 设备 之 间 的 
高 效 数据 交换 。iSCSI 层 和 TCP/IP 协议 栈 的 功能 均 由 主机 总 线 适配器 (HBA) 来 完成 ,对 主机 
CPU 的 占用 最 少 , 这 种 方式 数据 传输 性 能 最 好 ,但 是 系统 构建 价格 也 最 高 ,如 图 3-39 所 示 。 
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一 一 一 内 部 总 线 连 接 
存储 设备 一 以 大 网 连接 
图 3-38 TOE 网 卡 十 Initiator 软件 实现 方式 









iSCSIHBA 卡 


存储 设备 一 一 以 太 网 连接 
3-39 TOEiSCSI HBA 卡 连接 方式 


3.3.7 FC 协议 与 TCP 协议 融合 


1. FC-SAN 与 IP-SAN 在 产品 上 的 融合 

如 磁盘 阵列 上 控制 器 上 既 包 含 FC 端口 ,又 包含 iSCSI 口 ,能 同时 满足 FC-SAN 的 组 网 
需求 ,也 能 满足 IP-SAN 的 组 网 需求 .这 是 不 完全 的 融合 ,如 图 3-40 所 示 。 

2. FC-SAN 与 IP-SAN 解决 方案 的 融合 

统一 存储 解决 方案 典型 系列 产品 ,可 以 同时 对 外 提供 FC-SAN IP-SAN 和 NAS 共 
享 , 如 图 3-41 所 示 。 

3. FC 与 TCP 协议 融合 

基于 IP 的 光纤 通道 (Fibre Channel over IP,FCIP) 是 连接 TCP/IP 网 络 链 路 上 的 光纤 
通道 架构 的 一 项 IETF 标准 。 利 用 目前 的 IP 协议 和 设施 来 连接 两 个 异地 FC SAN 的 隧道 ， 
用 以 解决 两 个 FC SAN 的 互联 问题 。 
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区 可 可 连接 应 用 服务 器 上 
rp] 维护 终端 上 的 接应 ， 
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3-40 ”磁盘 阵列 控制 器 
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一 一 卫 连 接 
全 
PC 交换 机 PC 交换 机 T 系 列 存储 设备 


图 3-41 FC-SAN 与 IP-SAN 解决 方案 


Internet 光纤 信道 协议 (Internet Fibre Channel Protocol,iFCP) 是 一 种 网 关 到 网 关 的 协 
议 , 为 TCP/IP 网 络 上 的 光纤 设备 提供 光纤 信道 通信 服务 。iFCP 使 用 TCP 提供 拥塞 控制 、 
差错 监测 与 恢复 功能 。iFCP 主要 目标 是 使 现 有 的 光纤 信道 设备 能 够 在 IP 网 络 上 以 线 速 互 
联 与 组 网 。 此 协议 及 其 定义 的 帧 地 址 转换 方法 允许 通过 透明 网 关 (Transparent Gateway) 
将 光纤 信道 存储 设备 附加 到 基于 IP 的 网 络 结构 。 

FCoE(Fibre Channel over Ethernet) 利 用 以 太 网 路 传送 光纤 通道 (Fibre Channel) 的 信 
号 ,让 光纤 通信 的 资料 可 以 在 10Gbps 骨干 以 太 网 络 中 传输 ,但 仍然 是 使 用 光纤 通道 的 

基于 IP 的 光纤 通道 (IP over Fiber Channel,IPFC) 使 用 在 两 个 服务 器 之 间 的 光纤 通道 
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就 可 以 在 光纤 通道 上 发 送 IP 分 组 。 

下 面 我 们 着 重 介绍 一 下 FCIP 和 iFCP 协议 。 

目前 FC 与 TCP/IP 协议 的 真正 融合 主要 有 两 种 趋势 。 

(1) TCP/IP 网 络 承载 FC 信道 : FCIP iFCP、FCOE。 

(2) 以 FC 信道 承载 TCP/IP 数据 : IPFC。 

从 现 有 的 情况 来 看 ,以 太 网 技术 和 FC 技术 都 在 飞速 发 展 ,IP-SAN 和 FC-SAN 会 在 很 
长 的 一 段 时 间 内 都 将 是 并 存 且 互 为 补充 的 。 

4. FCIP 协议 

基于 IP 协议 的 光纤 通道 (Fiber Channel over IP,FCIP) 是 基于 IP 协议 传输 的 光纤 通道 
数据 帧 的 解决 方案 ,是 由 Brocade、Gadzoox、Lucent、McData 以 及 Qlogic 公司 共同 提出 的 。 
FCIP 这 一 技术 的 核心 ,是 把 光纤 通道 协议 的 数据 帧 封装 在 IP 数据 包 里 ,以 便 在 覆盖 广阔 的 
TCP/IP 网 络 中 进行 传递 。 网 络 中 的 其 他 设备 接收 后 ,由 专门 的 目标 设备 进行 解 封装 ,以 便 
还 原 FC 数据 帧 。FCIP 协议 实质 上 就 是 采用 隧道 技术 的 IP-SAN 方案 。 采 用 FCIP 技术 可 
以 实现 利用 目前 的 IP 网 络 来 联接 两 个 异地 的 FC-SAN, 以 解决 FC-SAN 之 间 的 互联 问题 。 
这 一 隧道 传输 技术 是 通过 使 用 FCIP 网 关 来 实现 的 ,通过 光纤 通道 交换 机 的 扩展 端口 连接 
到 每 个 FC-SAN 上 ,所 有 发 往 远程 站 点 的 存储 数据 均 通 过 公用 的 IP 隧道 。 接 收 端的 光纤 
通道 交换 机 负责 将 到 来 的 每 个 帧 交换 至 目的 光纤 通道 端点 设备 。 

FCIP 协议 是 一 种 隧道 (tunneD 协议 ,IP 地 址 和 TCP 连接 只 用 在 位 于 IP 网 络 重点 
的 FCIP 网 关 设 备 上 。FCIP 能 够 为 两 个 FC-SAN 之 间 提 供 IP 连接 ,但 是 不 能 为 两 个 独 
立 的 FC 存储 设备 提供 IP 连接 , 即 FCIP 不 能 通过 IP 协议 实现 FC 存储 设备 端 到 端的 
连接 。 

FCIP 协议 利用 IP 网 络 中 创建 的 “隧道 ?在 两 个 FC-SAN 网 络 之 间 实 现 FC 协议 的 数据 
传输 ,将 真正 意义 上 的 远程 数据 镜像 和 FC-SAN 的 灵活 性 以 及 IP 网 络 的 低 成 本 和 易 用 性 
结合 在 一 起 ,降低 了 远程 操作 的 成 本 和 操作 的 复杂 性 。FCIP 提供 了 在 TCP/IP 协议 中 封装 
FC 协议 数据 帧 的 方法 ,消除 了 FC 目前 存在 的 距离 限制 ,允许 通过 IP 网 络 来 互联 FC-SAN， 
使 得 数据 的 访问 变 得 更 加 灵活 ,存储 策略 的 部 署 更 加 容易 ,如 图 3-42 所 示 。 

5. FCIP 的 协议 栈 

FCIP 协议 是 一 个 点 到 点 的 隧道 封装 协议 , 它 可 以 实现 多 个 本 地 FC-SAN 网 络 经 由 
FCIP 网 关 通 过 IP 网 络 进 行 互联 并 对 其 进行 管理 。 在 FCIP 的 协议 栈 中 ,FCIP 协议 处 于 
FC 和 TCP 之 间 , 也 就 意味 着 FCIP 可 以 互联 FC 和 TCP 这 两 种 协议 网 络 。 在 TCP 下 层 是 
IP 协议 和 下 层 的 数据 链 路 以 及 物理 层 协议 .而 FC 协议 的 上 层 则 有 FCP 和 SCSI 协 议 , 由 此 
可 见 FCIP 协议 联系 了 底层 的 IP 网 络 和 高 层 的 SCSI 应 用 ,实现 了 不 同 网 络 ,不同 协议 之 间 
的 网 络 设备 互联 和 应 用 的 融合 。 

在 FCIP 的 协议 栈 中 ,FCIP 协议 处 于 FC 和 TCP 之 间 , 也 就 意味 着 FCIP 可 以 互联 FC 
和 TCP 这 两 种 协议 网 络 , 如 图 3-43 所 示 。 
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3-43 ”FCIP 的 协议 栈 


6. FCIP 的 数据 封装 

在 FCIP 数据 封装 中 ,光纤 通道 网 络 体系 结构 提供 的 终端 寻 址 `. 地 址 解析 、 信 息 路 由 等 
均 保 持 不 变 ,而 IP 协议 在 这 里 只 是 作为 传输 协议 用 以 承载 FC 数据 帧 在 IP 网 络 中 进行 
传输 。 

FCIP 在 FC 帧 和 TCP 包头 之 间 加 入 了 FCIP 包头 ,用 来 显示 FCIP 协议 的 版 本 、 帧 长 度 
等 字段 。 发 送 端 FCIP 网 关 设 备 将 FC 封装 为 FCIP 帧 ,通过 IP 网 络 传 送 。 接 收 端 FCIP 网 
关 设 备 接收 到 FCIP 帧 后 , 解 封装 IP 和 TCP 包头 ,还 原 成 FC 帧 并 通过 一 个 或 多 个 FC 交换 
机 发 送 到 目的 节点 。 

FCIP 协议 是 一 个 隧道 协议 , 它 提供 把 FC 协议 数据 帧 封装 进 IP 包 以 便 在 IP 网 络 中 进 
行 传输 的 方法 ,如 图 3-44 所 示 。 

7. FCIP 通信 原理 

整个 FCIP 的 通信 过 程 是 由 其 数据 引擎 推动 进行 的 。 首 先 在 源 FCIP 连接 端点 (FCIP 
Link EndPoint,FCIP LEP) 处 对 FC 协议 数据 帧 进行 封装 ,然后 通过 TCP/IP 协议 在 卫 网 
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络 中 进行 传输 ,到 达 目 的 FCIP 连接 端点 后 进行 解 封装 , 读 出 其 中 的 数据 并 执行 其 中 的 FC 
指令 。 

FCIP 作为 一 种 隧道 技术 ,仍然 存在 一 些 缺点 。 首 先 , 其 带宽 相对 FC 而 言 ,由 于 利用 的 
是 全 通 道 , 所 以 带宽 仍 远 低 于 FC。 其 次 ,由 于 FC 协议 帧 被 封装 进 卫 数 据 包 中 ,但 是 了 
网 络 智能 管理 工具 并 不 能 识别 这 些 数据 ,使 得 很 多 很 好 的 管理 控制 机 制 无 法 应 用 于 
FCIP, 比 如 目录 服务 、 流 量 控 制 和 QoS 等 。 最 后 ,由 于 FCIP 仅仅 是 在 TCP/IP 网 络 中 构 
建 起 一 个 传输 FC 协议 帧 的 隧道 将 两 个 远 端的 FC-SAN 连接 起 来 , 它 并 没有 解决 单个 FC- 
SAN 的 设备 互 操作 性 问题 和 管理 问题 ,本 地 的 SAN 采用 的 仍然 是 FC 技术 ,如 图 3-45 
所 示 。 





Dk | TCP/IP 包 头 | FCIP 帧 头 | SOF 帧 起 始 符 | recat | EOF 帧 终止 符 
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3-44 ”FCIP 的 数据 封装 
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3-45 4 FCIP 通信 原理 


8. iFCP 协议 

iFCP 如 图 3-46 所 示 。iFCP 可 以 直接 替代 FC 架构 ,通过 iFCP 存储 交换 机 可 以 直接 连 
接 FC 的 各 个 设备 并 进行 分 组 ,而 不 仅仅 是 简单 地 对 FC-SAN 进行 远程 连接 ,但 是 iFCP 不 
支持 独立 的 存储 区 域 网 络 的 合并 操作 (Merge) ,因此 无 法 组 成 单一 的 逻辑 SAN。iFCP 的 优 
势 在 于 在 建立 连接 的 同时 还 能 够 建立 网 关 分 区 ,可 以 将 出 现 故障 的 区 域 隔离 开 来 ,并 克服 了 
点 到 点 隧道 的 限制 。 并 且 下 CP 提供 FC 设备 端 到 端的 连接 ,TCP 连接 的 中 断 只 会 影响 到 
一 个 通信 对 ,而 不 会 影响 到 其 他 通信 ,也 不 会 将 一 个 设备 的 错误 带 给 其 他 设备 。 基 于 iFCP 
实现 了 SAN 的 路 由 故障 隔离 .安全 及 灵活 管理 ,具有 比 FCIP 更 高 的 可 靠 性 。 

9.iFCP 的 协议 栈 

iFCP 协议 层 的 主要 功能 是 在 本 地 和 远程 N_PORT 间 传 输 光 纤 通 道 帧 映像 。 当 帧 被 传 
输 到 远程 N_PORT 时 ,iFCP 层 开始 封装 并 路 由 光纤 通道 帧 。 光 纤 通 道 帧 包括 每 一 个 光纤 
通道 信息 单元 ,通过 预先 建立 的 TCP 连接 在 IP 网 络 上 传输 。 
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| Co | 
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3-46 ”iFCP 协议 


iFCP 协议 位 于 TCP/IP 协议 和 FC 协议 之 间 , 可 以 起 到 连接 这 两 种 协议 网 络 的 作用 ， 
如 图 3-47 所 示 。 





SCSI 应 用 (文件 系统 、 数 据 库 ) 





SCSI 块 指令 SCSI 流 指令 其 他 SCSI 指 令 








SCSI 指 令 、 数 据 和 状态 





FC 


王公 iFCP 














以 太 网 





3-47 ”iFCP 协议 栈 


10. iFCP 协议 封装 

iFCP 在 FC 帧 和 TCP 包头 之 间 ,在 iFCP 层 中 ,FC 设备 的 24 位 fabric 地 址 被 映射 到 
一 个 唯一 的 人 地址 上 ,为 Fibre Channel 启动 器 和 目标 提供 了 本 地 IP 地 址 的 编 址 工作 。 
下 CP 代替 了 Fibre Channel 的 底层 传输 层 (FC-2) , 它 使 用 TCP/IP 在 IP 网 络 上 进行 可 靠 
传输 ,如 图 3-48 所 示 。 





























IP 包 头 TCP 包 头 iFCP 包 头 Fiber Channel 帧 
D_IP:01xxxx D_ID:01xxxx 
S_IP:02xxxx S_ID:02xxxx 























图 3-48 ”iFCP 协议 封装 


11.iFCP 的 工作 原理 

iFCP 的 工作 原理 是 ,将 Fibre Channel 数据 以 卫 包 形式 封装 ,并 将 他 地 址 映射 到 分 
离 光 纤 通 道 设备 。 由 于 在 IP 网 中 每 类 光纤 通道 设备 都 有 其 独特 标识 ,因而 能 够 与 位 于 
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IP 网 其 他 节点 的 设备 单独 进行 存储 数据 收发 。 光 纤 通 道 信号 在 下 CP 网 关 处 终止 ,信号 
转换 后 存储 通信 在 IP 网 中 进行 ,这 样 下 CP 就 打破 了 传统 光纤 通道 网 的 距离 (在 不 使 用 中 
继 器 的 情况 下 ,FC 的 传输 距离 约 为 10km) 限 制 ,如 图 3-49 所 示 。 


N/NL-Port 人 中 N/NL-Port 

























FC Domain 











F/FL-port 







F/FL-port 




















iFCP Layer 





iFCP Layer 

















FCP Portal 

















FCP Portal 











IP Domain 


IP Network 


图 3-49 iFCP 工 作 原 理 


12. iFCP 网 络 体系 架构 

在 使 用 下 CP 协议 构建 的 IP-SAN 存储 网 络 中 ,存储 设备 没有 被 限制 在 光纤 通道 SAN 
的 了 网 络 中 分 布 。iFCP 存储 交换 机 直接 接替 FC-SAN 中 的 光纤 通道 交换 机 ,这 就 意味 
着 下 CP 交换 机 也 具有 SNS( 存 储 名 称 服务 器 ) 功 能 ,为 终端 节点 提供 名 称 发 现 服务 。 在 
iFCP 交换 机 中 指派 4 字 节 的 全 地 址 给 每 一 个 光纤 通道 终端 节点 。 当 光纤 通道 设备 发 送 
一 个 SNS 名 称 查询 时 ,这 个 请 求 将 被 FCP 交换 机 截 住 ,并 由 iSNS 服务 器 进行 解释 。 在 
光纤 通道 层 , 一 个 适用 的 目标 地 址 表 将 返回 给 发 起 者 ,此 时 其 余 IP 的 光纤 通道 地 址 表 就 
映射 光纤 通道 地 址 ,以 便 相应 的 IP 地 址 可 以 通过 IP 网络 传 到 目标 设备 ,如 图 3-50 所 示 。 


Fib ib Fibre 4 Fibre 
ibre lbre 
ee 品 副 人 多 吕 i 
库 全 服务 器 

7 的话 ~ \ 


/ Es a \ 
iFCP 网 关 iFCP 网 关 \ 


| ~ IP 存储 网 络 , l 
\ 证 CP 网 关 yp | 
、 4 一 ~ ST Fibre = / 

NA NU imi ~ 9 0 
Fibre - Fibre Fibre Fibre 
这 所 Channel Channel = Channel 

服务 器 磁带 库 服务 器 时 磁带 库 


图 3-50 ”让 CP 网 络 体系 架构 
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13. iSCSI 协议、FCIP 协议 .iFCP 协议 比较 

FCIP 和 iSCSI 技术 在 卫 存 储 领 域 是 两 个 相对 的 极端 ,FCIP 可 以 看 作 是 FC 的 扩展 
策略 , 它 包 含 了 部 分 的 下 协议 信息 和 大 量 的 FC 成 分 ,所 以 从 严格 意义 上 来 说 FCIP 并 
不 能 算 真 正 的 IP 存储 策略 。 而 iSCSI 协议 的 目的 则 是 要 用 人 P 协议 完全 取代 FC 协议 
在 SAN 中 的 应 用 ,iSCSI 协议 中 完全 不 含有 FC 的 内 容 , 只 包含 了 卫 信息 。iSCSI 与 
下 CP 相 比较 具有 一 定 的 相似 性 ,iSCSI 和 iFCP 都 在 存储 端 设备 中 采用 了 IP 协议 技术 ， 
而 不 同 在 于 ,iSCSI 为 通过 人 P 网 络 进行 块 数据 传输 定义 了 其 本 身 的 串 行 SCSI 的 实现 。 
这 三 种 协议 都 位 于 TCP/IP 和 SCSI 协 议 之 间 ,为 TCP/IP 和 SCSI 的 沟通 起 到 了 纽带 的 
作用 ,如 图 3-51 所 示 。 





Applications 
Standard SCSI Command Set 








iSCSI iFCP FCIP 
3-51 ”iSCSI 协议 .FCIP 协议 ,iFCP 协议 的 比较 


14. FCoE 协议 

FCoE(Fibre Channel over Ethernet) 可 以 提供 标准 的 光纤 通道 原 有 服务 ,如 发 现 , 全 局 
名 称 命名 、 分 区 等 ,而 且 这 些 服务 都 可 以 照 标准 原 有 的 运作 .保有 FC 原 有 的 低 延迟 性 、 高 
性 能 。 

从 FC 协议 的 角度 来 看 ,FCoE 就 是 把 FC 承载 在 一 种 新 型 的 链 路 上 , 即 以 太 网 二 层 链 
路 ;从 以 太 网 的 角度 来 看 ,FCoE 仅 是 其 承载 的 另外 一 种 上 层 协议 (类 似 于 IP/IPX)。 直 接 
在 增强 型 无 损 以 太 网 基础 设施 上 传输 光纤 信道 信号 功能 的 协议 。FCoE 把 FC 帧 封装 在 以 
太 网 帧 中 ,允许 LAN 和 SAN 的 业务 流量 在 同一 个 以 太 网 中 传送 ,如 图 3-52 所 示 。 


以 太 网 数据 
链 路 层 帧 
> 业务 流 IP 
> 块 存储 FCoE 
> 网 络 电话 VolP 
> 视频 流 VolP 






































图 3-52 FCoE 协议 


15. FCoE 协议 的 封装 
FC 网 络 协 议 栈 有 五 层 ,其 中 FC0 定义 承载 介质 类 型 ,FC1l 定义 帧 编 解 码 方式 ,FC2 定 
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义 分 帧 协议 和 流 控 机 制 ,FC3 定义 通用 服务 ,FC4 定义 上 层 协议 到 FC 的 映射 。 
FCoE 是 把 FC-2 层 以 上 的 内 容 封 装 到 以 太 网 报 文中 进行 承载 ,如 图 3-53 所 示 。 





















































FC-4 FC-4 
FC-3 FC-3 FC 协议 层 
FC-2 FC-2 
FC-1 mb FCoE 
FC-0 | MAC 
以 太 网 协议 层 
PHY 


图 3-53 ”FCoE 协议 的 封装 


16. 融合 增强 型 以 太 网 CCEE) 

传统 的 以 太 网 是 一 种 尽力 服务 的 网 络 模式 , 当 网 络 拥塞 时 有 可 能 发 生 丢 包 ,进而 导致 出 
现 数据 包 重 传 或 超时 现象 。FCoE 网 络 融合 技术 的 出 现 ,对 以 太 网 提出 了 无 丢 包 服务 的 要 
求 。 为 此 ,IEEE 802. 1 和 IETF 标准 组 织 制定 一 些 新 的 标准 ,创建 一 个 新 的 、 更 强大 的 以 太 
网 协议 系列 , 即 融合 增强 型 以 太 网 (CEE) 。 

(1) 基于 优先 级 的 流量 控制 (PFC) 

以 太 网 Pause 机 制 能 够 实现 网 络 不 丢 包 的 要 求 ,但 它 会 阻止 一 条 链 路 上 的 所 有 流量 ， 
PFC 是 对 Pause 机 制 的 一 种 增强 。PFC 可 以 在 一 条 以 太 物 理 链 路 上 创建 8 个 独立 的 虚拟 
链 路 ,并 允许 单独 暂停 和 重启 其 中 任意 一 条 虚拟 链 路 。 这 一 方法 使 网 络 能 够 为 单个 虚拟 链 
路 创建 无 丢 包 类 别 的 服务 ,使 其 能 够 与 同一 接口 上 的 其 他 类 型 的 流量 共存 。 

(2) 增强 的 传输 选择 (ETS) 

ETS 可 以 为 不 同 的 业务 流量 设 定 优先 级 和 保证 带宽 ,并 允许 低 优先 级 的 流量 使 用 高 优 
先 级 队列 闲置 的 带宽 ,这 样 可 以 提高 整个 网 络 的 效率 。 

(3) 拥塞 通告 

当 网 络 中 发 生 拥 塞 时 ,由 拥塞 点 向 数据 源 发 送 指示 来 限制 引起 拥塞 的 流量 ,并 在 拥塞 消 
失 时 通知 其 取消 限制 。 拥 塞 通知 提供 了 一 种 在 二 层 网 络 对 持续 拥塞 的 流量 端 到 端 管理 
方法 。 

FCoE 采用 增强 型 以 太 网 作为 物理 网 络 传输 架构 ,能 够 提供 标准 的 光纤 通道 有 效 内 容 
载荷 ,融合 增强 型 以 太 网 (CEE) 可 以 避免 类 似 TCP/IP 协议 的 开销 和 数据 包 损失 ,如 图 3-54 
所 示 。 














f 了 Fr FF ™ 
六 
x 通告 
控制 | 呈 | 。 拥塞 通告 
(PFC) 
®& J J & a 


图 3-54 ”融合 增强 型 以 太 网 (CEE) 
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3.4 NAS 技术 与 应 用 


3.4.1 NAS 存储 基础 


NAS 和 SAN 最 大 的 区 别 就 在 于 NAS 有 文件 操作 和 管理 系统 ,而 SAN 却 没有 这 样 
的 系统 功能 ,其 功能 仅仅 停留 在 文件 管理 的 下 一 层 , 即 数据 管理 。SAN 和 NAS 并 不 是 相 
互 冲突 的 ,是 可 以 共存 于 一 个 系统 网 络 中 的 ,如 图 3-55 所 示 。NAS 通过 一 个 公共 的 接口 
实现 空间 的 管理 和 资源 共享 ,SAN 仅仅 是 为 服务 器 存储 数据 提供 一 个 专门 的 快速 后 方 存 
储 通道 。 





以 太 网 接口 以 太 网 接口 





3-55 NAS 存储 系统 


FTP 文件 服务 不 属于 NAS,FTP 只 能 将 文件 传输 到 本 地 的 目录 之 后 才能 执行 ,而 网 络 
文件 系统 可 以 允许 直接 访问 原始 位 置 的 文件 ,不 需要 将 数据 复制 到 本 地 再 访问 。 


3.4.2 NAS 网 络 拓扑 

NAS 可 作为 网 络 节点 直接 接 入 网 络 中 ,理论 上 NAS 可 支持 各 种 网 络 技术 ,支持 多 种 网 
络 拓扑 ,但 是 以 太 网 是 目前 最 普遍 的 一 种 网 络 连接 方式 ,我 们 主要 讨论 的 是 以 以 太 网 为 网 络 
基础 的 NAS 环境 ,如 图 3-56 所 示 。 





Windows 客 户 端 UNIX 客 户 端 
一 一 -一 一 一 一 一 LAN 
| alFs NFS | 
NAS 
Windows 服 务 器 UNIX 服 务 器 


3-56 NAS 网 络 拓扑 
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NAS 本 身 能 够 支持 多 种 协议 (如 NFS、CIFS、.FTP、HTTP 等 ) ,而 且 能 够 支持 各 种 操作 

系统 。 通 过 任何 一 台 工 作 站 ,采用 IE 或 Netscape 浏览 器 就 可 以 对 NAS 设备 进行 直观 方便 
的 管理 。 


3.4.3 NAS 的 发 展 及 特点 


传统 的 DAS 存储 系统 尽管 使 用 方便 ,但 这 种 模式 是 直接 将 存储 设备 连接 到 服务 器 上 。 
一 方面 , 当 存 储 容量 增加 时 ,这 种 方式 很 难 扩展 ; 另 一 方面 , 当 服 务 器 出 现 异 常 时 ,会 使 数据 
不 可 获得 ,容错 性 差 ; 再 者 ,存在 着 存储 数据 无 法 被 其 他 服务 器 共享 ,扩充 容量 则 需要 关闭 整 
个 系统 ,远程 管理 不 方便 等 诸多 缺陷 。 于 是 便 有 了 网 络 存储 技术 的 出 现 ,网 络 存储 技术 分 为 
两 类 , 即 SAN 和 NAS。 在 SAN 环境 中 ,存储 设备 通过 网 络 与 服务 器 相连 ,可 以 有 更 多 的 服 
务 器 访问 存储 设备 提供 的 存储 资源 ,存储 设备 提供 数据 块 级 别 的 服务 。NAS 是 一 种 向 用 户 
提供 文件 级 服务 的 专用 数据 存储 设备 ,直接 连 到 网 络 上 ,不 再 挂 接 服务 器 后 端 ,避免 给 服务 
器 增加 IO 负载 ,服务 器 只 负责 处 理 自身 业务 。 

1. 集群 技术 的 概念 

一 组 相互 独立 的 服务 器 在 网 络 中 表现 为 单一 的 系统 ,并 以 单一 系统 的 模式 加 以 管理 。 
此 单一 系统 为 客户 工作 站 提供 高 可 靠 性 的 服务 。 

2. 集群 技术 的 特点 

(1) 统一 命名 : 大 多 数 模式 下 ,集群 中 所 有 的 计算 机 拥有 一 个 共同 的 名 称 , 集 群 内 任 一 
系统 上 运行 的 服务 可 被 所 有 的 网 络 客户 所 使 用 。 

(2) 高 可 靠 性 : 集群 必须 可 以 协调 管理 各 分 离 组 件 的 错误 和 失败 ,集群 内 单一 系统 的 
失败 由 其 他 集群 成 员 来 弥补 ,对 客户 是 不 可 见 的 。 集 群 内 部 各 节点 服务 器 通过 一 内 部 局 域 
网 相互 通信 。 当 一 台 节 点 服务 器 发 生 故 障 时 ,这 台 服 务 器 上 所 运行 的 应 用 程序 将 在 另 一 节 
点 服务 器 上 被 自动 接管 。 当 一 个 应 用 服务 发 生 故 障 时 ,应 用 服务 将 被 重新 启动 或 被 另 一 台 
服务 器 接管 。 当 以 上 的 任 一 故障 发 生 时 ,客户 都 将 能 很 快 连接 到 新 的 应 用 服务 上 。 

(3) 性 能 扩展 : 可 透明 地 向 集群 中 加 入 组 件 , 提 升 系统 的 性 能 。 

(4) 共享 数据 空间 : 一 个 集群 包含 多 台 ( 至 少 两 台 ) 拥 有 共享 数据 存储 空间 的 服务 器 。 
任何 一 台 服 务 器 运行 一 个 应 用 程序 时 ,应 用 数据 被 存储 在 共享 的 数据 空间 内 。 每 台 服务 器 
的 操作 系统 和 应 用 程序 文件 存储 在 其 各 自 的 本 地 存储 空间 上 。 


3.4.4 集群 NAS 


集群 NAS 相 较 于 传统 NAS, 由 于 引擎 采用 了 集群 架构 , 带 来 了 多 方面 的 优势 ,引擎 集 
群 之 间 采 用 双向 模式 ,可 靠 性 更 高 。 集 群 架 构 易 扩 展 ,增加 引擎 能 线性 提高 性 能 。 易 扩展 ， 
新 的 引擎 可 直接 加 入 集群 ,在 线 扩 容 , 对 业务 不 造成 影响 。 易 管理 ,对 集群 内 的 引擎 节点 可 
统一 管理 。 集 群 NAS 的 优点 如 图 3-57 所 示 。 


3.4.5 NAS 与 文件 服务 器 的 对 比 


文件 服务 器 的 主要 任务 是 为 网 络 上 的 计算 机 提供 多 样 化 的 服务 ,如 在 文件 共享 及 处 理 、 
网 页 发 布 .FTP、 电 子 邮 件 服务 等 方面 有 明显 的 优势 ,这 主要 得 益 于 文件 服务 器 通常 是 采取 
高 性 能 的 CPU ,与 NAS 相 比 它 在 数据 备份 .数据 安全 等 方面 并 不 占 优势 。 
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高 性 能 





~ 
故障 切换 快速 ; || 引擎 架构 可 多 层面 提供 支持 统一 存储 ; 
双 控 模 式 采用 扩展 :共享 扩展 优势 ; 通用 操作 系统 
Active-Active 存储 设备 ; NAS 机 头 , 存 易于 管理 
模式 ,集群 单 文件 系统 位 储 容量 ;支持 

个 节点 故障 于 存储 侧 ， 在 线 扩展 

不 影响 业务 读 取 速度 快 





图 3-57 集群 NAS 的 优点 


通过 对 比 不 难看 出 ,文件 服务 器 相对 于 NAS 综合 功能 特别 是 在 文件 处 理 能 力 方面 更 
为 强大 ,但 文件 服务 器 在 数据 的 备份 和 恢复 方面 却 远 没有 NAS 的 功能 完善 ,系统 稳定 性 也 
没有 NAS 的 好 ,存储 容量 空间 没有 NAS 的 大 及 易 扩展 ,同时 在 数据 安全 如 数据 容 灾 方 面 ， 
NAS 更 具 优势 。 在 这 种 状况 下 ,两 者 无 法 相互 替代 ,如 图 3-58 所 示 。 


文件 服务 器 。 | NAS 





3-58 NAS 与 文件 服务 器 的 对 比 


3.4.6 NAS 系统 的 组 成 与 部 件 
1. NAS 系统 架构 


NAS 系统 软件 设计 的 基本 要 求 是 较 高 的 稳定 性 和 I/O 吞吐 率 , 并 能 满足 数据 共享 、 数 
据 备份 .安全 配置 .设备 管理 等 要 求 。 该 结构 分 为 五 个 模块 : 操作 系统 、 存 储 管理 器 、 文 件 系 
统 、 网 络 文件 共享 和 GUI 管理 模块 ,如 图 3-59 所 示 。 


鉴于 Linux、FreeBSD 等 免费 的 开放 源码 操作 系统 具有 稳定 .可靠 ,高效 的 优秀 特性 , 现 
在 大 部 分 NAS 设备 都 是 基于 此 类 操作 系统 开发 的 。 

存储 管理 器 的 主要 功能 是 磁盘 和 分 区 的 管理 .主要 包括 磁盘 的 监测 与 异常 处 理 和 人 逻辑 
卷 的 配置 管理 ,一 般 应 支持 磁盘 的 热 插 拔 、 热 蔡 换 等 功能 和 RAID0、RAID1、RAID5 类 型 的 
逻辑 卷 。 存 储 管理 器 实现 简化 的 、 集 中 的 存储 管理 功能 ,保证 数据 的 完整 性 ,并 增强 数据 的 
可 用 性 。 


文件 系统 提供 持久 性 存储 和 管理 数据 的 手段 . 它 必 须 是 32 位 或 以 上 并 能 支持 多 用 户 ， 
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图 3-59 ”NAS 系统 的 架构 


应 具备 日 志文 件 系 统 功能 以 使 系统 在 崩溃 或 掉 电 重启 后 能 迅速 恢复 文件 系统 的 一 般 性 和 完 
整 性 ,进一步 提供 NAS 的 可 用 性 。 此 外 ,文件 系统 还 应 具有 快照 功能 。 快 照 不 仅 能 恢复 被 
用 户 错误 修改 或 删除 的 文件 ,而 且 能 实现 备份 窗口 为 零 的 文件 系统 活 备 份 。 

网 络 文件 共享 一 般 支持 以 下 一 些 文件 传输 和 共享 协议 ,如 FTP 和 HTTP 协议 .UNIX 
系统 的 NFS、Windows 系统 的 CIFS、Novell 系统 的 NCP(Novell Core Protocol)、Apple 系 
统 的 AFP(Appletalk File Protocol) 等 ,因此 NAS 设备 具有 较 好 的 协议 独立 性 。 

GUI 管理 提供 给 系统 管理 员 一 个 友好 的 界面 ,使 之 仅 通 过 Web 浏览 器 操作 就 能 远程 
监视 和 管理 NAS 设备 的 系统 参数 ,如 网 络 配置 ,用户 与 组 管理 . 卷 以 及 文件 共享 权限 等 。 

2. NAS 的 组 件 

存储 部 分 功能 模块 提供 了 真正 的 物理 存储 空间 ,主要 技术 是 RAID、SCSI、SAS、FC 等 
技术 ,如 图 3-60 所 示 。 





网 络 协议 
。CIFS 
oNFS 





提供 文件 系统 


FC 


图 3-60 NAS 的 组 件 


控制 器 部 分 指 NAS 引擎 部 分 ,这 部 分 提供 了 NAS 底层 所 使 用 的 文件 系统 ,以 及 承载 
文件 系统 、 各 种 前 端 协议 的 操作 系统 。 
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网 络 部 分 提供 了 和 用 户 交 互 的 网 络 协议 ,主要 包括 NFS 和 CIFS, 用 户 最 终 通过 这 些 协 
议 访问 存储 空间 。 

3. NAS 引擎 

NAS 引 擎 是 NAS 集群 软件 运行 的 硬件 平台 ,通过 软件 的 处 理 , 将 后 端 存储 提供 的 卷 以 
NAS 方式 提供 给 客户 使 用 ,但 需要 较 好 的 I/O 处 理 能 力 、 网 络 带宽 和 可 靠 性 ,如 图 3-61 
所 示 。 





提供 文件 共享 接口 
提供 NAS 软 件 运 NAS 
行 的 硬件 平台 引擎 


提供 与 存储 连接 接口 


3-61 NAS 引擎 


3.4.7 NAS 文件 共享 协议 CIFS 及 NFS 


1. CIFS 

CIFS 使 用 客户 端 /服务 器 模式 ,客户 程序 请 求 远 在 服务 器 上 的 服务 器 程序 为 它 提供 服 
务 ,服务 器 获得 请 求 并 返回 响应 ,用 在 Windows 系统 共享 文件 的 环境 。 当 NAS 系统 对 
Windows 系统 服务 器 提供 存储 资源 共享 时 ,采用 CIFS 文件 系统 。 

通用 Internet 文件 系统 (Common Internet File System,CIFS) 是 一 个 新 提出 的 协议 , 它 
使 程序 可 以 访问 远程 Internet 计算 机 上 的 文件 并 要 求 此 计算 机 的 服务 。 

2. NFS 

网 络 文件 系统 (Network File System, NFS) 是 当前 主流 异 构 平台 共享 文件 系统 之 一 。 
主要 应 用 在 UNIX 环境 下 。 最 早 是 由 SUN microsystem 开发 ,现在 能 够 支持 在 不 同类 型 的 
系统 之 间 通 过 网 络 进行 文件 共享 ,广泛 应 用 在 FreeBSD、SCO、Solaris 等 异 构 操 作 系 统 平 
台 ,人 允许 一 个 系统 在 网 络 上 与 他 人 共享 目录 和 文件 。 通 过 使 用 NFS, 用 户 和 程序 可 以 像 访 
问 本 地 文件 一 样 访问 远 端 系统 上 的 文件 ,使 得 每 个 计算 机 的 节点 能 够 像 使 用 本 地 资源 一 样 
方便 地 使 用 网 上 资源 。 换 言 之 ,NFS 可 用 于 不 同类 型 计算 机 、 操 作 系 统 、 网 络 架构 和 传输 协 
议和 运行 环境 中 的 网 络 文件 远程 访问 和 共享 。 

NFS 的 工作 原理 是 使 用 客户 端 /服务 器 架构 ,由 一 个 客户 端 程序 和 服务 器 程序 组 成 。 
服务 器 程序 向 其 他 计算 机 提供 对 文件 系统 的 访问 ,其 过 程 就 称 为 “输出 *”。NFS 客户 端 程序 
对 共享 文件 系统 进行 访问 时 ,把 它们 从 NFS 服务 器 中 “输送 ”出 来 。 文 件 通 常 以 “ 块 ”为 单位 
进行 传输 。 其 尺寸 是 8KB( 虽 然 它 可 能 会 将 操作 分 成 更 小 尺寸 的 分 片 )。NFS 传输 协议 用 
于 服务 器 和 客户 机 之 间 文 件 访问 和 共享 的 通信 ,从 而 使 客户 机 远程 地 访问 保存 在 存储 设备 
上 的 数据 。 

3. 网 络 模块 

NAS 设备 中 所 包含 的 标准 文件 系统 可 以 对 公用 互联 网 文件 系统 (CIFS) 或 是 网 络 文件 
系统 (NFS) 提 供 支持 ,也 有 可 能 同时 支持 两 者 。 在 许多 情况 下 , 它 都 使 用 标准 的 网 络 文件 系 
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统 来 作为 NAS 专用 文件 系统 的 接口 。 大 多 数 NAS 设备 需要 用 这 种 方式 来 管理 其 自身 的 
存储 资源 。 

NFS 是 UNIX 系统 间 实 现 磁 盘 文 件 共享 的 一 种 方法 ,支持 应 用 程序 在 客户 端 通过 网 络 
存 取 位 于 服务 器 磁盘 中 数据 的 一 种 文件 系统 协议 。 其 实 它 包 括 许多 种 协议 ,最 简单 的 网 络 
文件 系统 是 网 络 逻辑 磁盘 , 即 客户 端的 文件 系统 通过 网 络 操作 位 于 远 端 的 逻辑 磁盘 。 现 一 
般 在 UNIX 主机 之 间 采 用 Sun 开发 的 NFSCSun) , 它 能 够 在 所 有 UNIX 系统 之 间 实 现 文件 
数据 的 互 访 ,逐渐 成 为 主机 间 共 享 资源 的 一 个 标准 。 

CIFS 是 由 微软 开发 的 ,用 于 连接 Windows 客户 机 和 服务 器 。 经 过 UNIX 服务 器 厂商 
的 重新 开发 后 , 它 可 以 用 于 连接 Windows 客户 机 和 UNIX 服务 器 ,执行 文件 共享 和 打印 等 
任务 。 它 最 早 的 由 来 是 NetBIOS, 这 是 微软 开发 的 在 局 域 网 内 实现 基于 Windows 名 称 资源 
共享 的 API。 之 后 ,产生 了 基于 NetBIOS 的 NetBEUI 协议 和 NBT(NetBIOS OVER TCP/ 
IP) 协 议 。NBT 协议 进一步 发 展 为 SMB(Server Message Block) 和 CIFS(Common Internet 
File System, 通 用 互联 网 文件 系统 ) 协 议 。 其 中 ,CIFS 用 于 Windows 系统 ,而 SMB 广泛 用 
于 UNIX 和 Linux, 两 者 可 以 互通 ,SMB 协议 还 被 称 作 Lan Manager 协议 。CIFS 支持 与 
SMB 的 服务 器 通信 而 实现 共享 ,微软 操作 系统 家 族 和 几乎 所 有 UNIX 服务 器 都 支持 SMB 
协议 /SAMBA 软件 包 , 如 图 3-62 所 示 。 





CIFS 或 NFS 协 议 CIFS 或 NFS 协 议 











NAS 设 备 


BJU 


图 3-62 CIFS 或 NFS 协议 


存储 设备 为 NAS 系统 提供 了 真正 的 物理 存储 空间 ,数据 通过 NAS 引擎 处 理 以 后 ,将 
数据 保存 到 存储 设备 中 。 在 主机 上 安装 iSCSI HBA 适 配 卡 ,从 而 实现 主机 与 交换 机 之 间 、 
主机 与 存储 设备 之 间 的 高 效 数据 交换 。iSCSI 层 和 TCP/IP 协议 栈 的 功能 均 由 主机 总 线 适 
配器 (HBA) 来 完成 ,对 主机 CPU 的 占用 最 少 。 这 种 方式 的 数据 传输 性 能 最 好 ,但 是 系统 构 
建 价格 也 最 高 。 

4. CIFS 和 NFS 对 比 

(1) CIFS 面向 网 络 连 接 的 共享 协议 ,对 网 络 传 输 的 可 靠 性 要 求 高 , 常 使 用 TCP/IP; 
NFS 是 独立 于 传输 的 ,可 使 用 TCP 或 UDP。 

(2) NFS 的 缺点 之 一 ,是 要 求 客 户 端 必须 安装 专用 软件 ;而 CIFS 集成 在 操作 系统 内 
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部 ,无 须 额外 添加 软件 。 

(3) NFS 属于 无 状态 协议 ,而 CIFS 属于 有 状态 协议 ;NFS 受 故 障 影响 小 ,可 以 自 恢复 
交互 过 程 ,CIFS 不 行 ;从 传输 效率 上 看 ,CIFS 优 于 NFS, 没 有 太 多 元 余 信 息 传送 。 

(4) 两 种 协议 都 需要 文件 格式 转换 ,NFS 保留 了 UNIX 的 文件 格式 特性 ,如 所 有 人 、 组 
等 ;CIFS 则 完全 采用 Windows 的 风格 。 

如 果 文 件 系统 已 经 设置 为 CIFS 共享 , 则 此 文件 系统 只 能 设置 为 只 读 的 NFS 共享 。 

如 果 文 件 系统 已 经 设置 为 NFS 共享 , 则 此 文件 系统 只 能 设置 为 只 读 的 CIFS 共享 。 

CIFS 和 NFS 的 对 比如 表 3-4 所 示 。 


表 3-4 CIFS 和 NFS 的 对 比 


协议 传输 协议 客户 端 要 求 故障 影响 效率 | 支持 操作 系统 


CIFS | TCP/IP 人 大 高 Windows 























NFS “| TCP 或 UDP | 需要 额外 的 软件 用 和 交 二 | 夭 


过 程 UNIX 


3.4.8 NAS 文件 系统 的 I[O 与 性 能 


1. NAS 系统 的 MO 路 径 

在 NAS 系 统 中 ,NAS 引擎 通过 网 络 将 后 端的 存储 资源 以 文件 夹 的 形式 对 外 提供 , 当 客 
户 端 在 访问 使 用 NAS 存储 资源 的 时 候 ,一 般 由 应 用 发 起 I/O 操作 ,然后 通过 网 络 到 达 NAS 
引擎 ,引擎 再 对 I/O 操作 进行 处 理 , 最 后 命令 到 达 存 储 阵列 ,完成 W/O 操作 。 

2. FC-SAN 与 IP-SAN 解决 方案 的 融合 

统一 存储 解决 方案 典型 系列 产品 ,可 以 同时 对 外 提供 FC-SAN IP-SAN 和 NAS 共 
享 , 如 图 3-63 所 示 。 

网 络 
= 





] 
T T 


主机 NAS 
3-63 ”FC-SAN 与 IP-SAN 解决 方案 的 融合 


3. 受 主机 性 能 的 影响 


访问 主机 客户 端 本 身 配 置 较 低 ,操作 系统 要 花 较 多 的 时 间 来 处 理应 用 ,如 果 再 加 上 主机 
上 运行 的 业务 程序 过 多 , 则 需要 更 多 的 时 间 去 处 理 接收 到 的 响应 ,那么 就 会 影响 到 主机 端 应 
用 对 存储 的 操作 ,如 图 3-64 所 示 。 

4. 受 网 络 性 能 的 影响 


跳 转 次 数 . 大 量 的 网 络 包 跳 转 会 增加 延迟 ; 重 传 、 链 路 错误 、 缓 冲 区 溢出 和 流量 控制 机 制 
Te 
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都 会 导致 重 传 。 这 会 导致 未 到 达 指 定 目的 地 的 报 文 被 重新 发 送 。 在 配置 网 络 设备 的 速率 参 
数 . 双 工 通信 参数 以 及 NAS 头 参 数 时 要 注意 使 它们 彼此 匹配 。 不 恰当 的 配置 会 导致 错误 
和 重 传 ,增加 延迟 ,如 图 3-65 所 示 。 





图 3-64 对 主机 性 能 影响 







跳 转 次 数 一 








| 






-路 由 交换 机 性 能 





2 
图 3-65 受 网 络 性 能 的 影响 


(1) 目录 服务 的 认证 

认证 服务 是 网 络 上 必需 的 服务 ,而 且 必 须 拥 有 充足 的 带宽 和 足够 的 资源 来 支持 认证 过 
程 产 生 的 负载 ,例如 LDAP、 活 动 目录 或 NIS。 和 否则 ,大 量 的 认证 请 求 发 向 服务 器 会 增加 延 
迟 。 当 然 , 只 有 当 认 证 发 生 时 才 会 增加 延迟 。 

(2) 路 由 交换 机 性 能 

在 网 络 中 ,一 个 过 载 的 设备 所 需要 的 响应 时 间 总 是 比 优 化 状态 下 使 用 的 或 低 负载 使 用 
的 设备 所 需要 的 响应 时 间 要 长 。 

5. 受 NAS 设备 性 能 的 影响 

进行 文件 目录 查找 时 ,如 果 文 件 目 录 过 大 过 深 , 在 查找 的 时 候 会 非常 耗资 源 ,对 NAS 
性 能 造成 一 定 的 影响 ;设备 过 载 , 即 长 时 间 处 于 高 负荷 的 状态 ,存储 阵列 降级 、 阵 列 降级 状 
态 , 阵 列 内 的 磁盘 会 参与 重 构 ,一 般 重 构 数 据 量 都 比较 大 ,也 会 直接 影响 阵列 的 性 能 ,进而 影 
响 NAS 的 性 能 ;而 存储 阵列 设备 性 能 低下 会 直接 影响 NAS 的 性 能 ,因为 NAS 对 数据 的 IO 
操作 最 终 的 处 理 设备 还 是 在 阵列 上 进行 的 ,如 果 阵 列 性 能 低下 ,整个 NAS 性 能 性 能 也 就 低 
下 了 ,如 图 3-66 所 示 。 


3.4.9 NAS 的 实现 与 应 用 


传统 NAS 非 集群 架构 多 为 Active-Standby 架构 ,NAS 引擎 各 自 管理 被 分 配 的 空间 。 
1. NAS 存储 系统 华为 N8500 产品 
N8500 是 华为 一 款 集群 化 的 中 高 端 NAS 存储 系统 ,针对 高 效 数据 共享 产品 的 需求 , 具 
有 灵活 的 横向 及 纵向 可 扩展 性 ,可 用 于 金融 、 政 府 、 石 油 天 然 气 、 健 康 和 生命 科学 ,制造 业 、 
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E-Discovery 等 行业 。 

N8500 的 特点 主要 体现 在 高 可 靠 性 、 高 性 能 、 支 持 动态 分 级 存储 、 支 持 业 务 网 口 绑 定 、 
支持 用 户 配 额 管理 、 支 持 文件 系统 快照 支持 基于 LAN 的 备份 ,支持 文件 系统 多 重 镜像 . 支 
持 文件 系统 在 线 扩容 、 支 持 NFS 和 CIFS 协议 的 共享 支持 FTP 协议 访问 、 支 持 域 环境 、 支 
持 存储 单元 后 台 格 式 化 ,如 图 3-67 所 示 。 

High Performance 

。N8500 SPECsfs 基 准 认证 结果 业界 领先 
。 性 能 线性 展 , 按 需 购买 

Scalability 


。 领先 的 多 节点 全 Active 集 群 架构 
。 最 大 支持 24 个 引擎 节点 

。 系 统 最 大 支持 15PB(PetaByte) 存 储 容量 
Efficiency 

。 细 粒度 的 动态 分 级 存储 功能 

。 独 有 文件 系统 镜像 功能 


Convergence 
。 NFS、CIFS、iSCSI、FCP、FCoE、FTP、HTTP、NDMP 等 协议 支持 
。 SAN 和 NAS 统 一 管理 
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2. N8500 架构 的 优势 

如 图 3-68 所 示 , N8500 采用 集群 架构 .所 有 引擎 均 处 于 活动 状态 ,NAS 引擎 管理 后 端 
整个 存储 空间 ,文件 系统 A 的 数据 ,服务 器 群 既 可 以 通过 A 控制 器 访问 ,也 能 通过 B 控制 器 
访问 ,文件 系统 B 也 是 如 此 。 通 过 多 个 控制 器 访问 同一 文件 系统 ,提升 并 发 处 理 效率 ,相当 
于 若干 个 人 同时 干 一 个 活 , 在 HPC 、 媒 资 等 高 性 能 存储 市 场 中 ,效率 可 成 倍 提升 。 同 时 支持 
故障 的 自动 切换 ,保障 系统 的 持续 运行 。 

(1) 资源 配置 灵活 

对 于 存储 空间 的 管理 ,N8500 通过 存储 池 方式 对 不 同类 型 磁盘 介质 进行 统一 管理 ,可 
支持 SSD、SAS、NIL-SAS、SATA 多 种 磁盘 类 型 ,可 针对 不 同类 型 的 应 用 ,划分 不 同 级 别 的 
资源 空间 ,这 样 做 可 以 实现 按 需 分 配 ,灵活 调度 ,达到 资源 的 最 优 配置 。 
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传统 NAS 架 构 N8500 集 群 NAS 架 构 
。 全 Active 集 群 架构 ,NAS 引 擎 管理 整个 存储 空间 ; 


。 非 集群 架构 ,NAS 引 擎 各 自 管理 被 分 配 的 空间 ; 
。 同 一 业务 由 多 引擎 并 发 提供 服务 、 性 能 、 扩 展 性 强 


。 同 一 业务 由 特定 引擎 提供 服务 ,性 能 有 限 马 生 


> 





网 络 


NAS 引 擎 


存储 





3-68 NAS 存储 系统 华为 N8500 构架 的 优势 


(2) 智能 迁移 提升 性 能 

智能 迁移 可 提升 性 能 并 降低 采购 成 本 。 大 家 都 知道 ,数据 可 以 根据 其 被 使 用 的 频 度 分 
为 热点 数据 和 非 热 点 数据 ,N8500 通过 Smart Cache 技术 和 DST 技术 实现 对 热点 数据 的 加 
速 , 以 及 对 非 热点 数据 的 智能 迁移 。 

DST 预测 功能 是 通过 对 用 户 当前 业务 负载 特点 的 分 析 , 将 负载 高 的 数据 预测 分 配 到 高 
性 能 层 或 者 性 能 层 ,将 负载 非常 低 或 者 完全 为 0 的 数据 预测 分 配 到 容量 层 , 在 满足 用 户 当前 
业务 性 能 需求 且 保证 总 价格 最 低 的 情况 下 ,给 出 用 户 存储 池 中 的 所 有 业务 数据 在 各 层 分 布 
最 合理 的 预测 比例 ,以 指导 用 户 后 续 进 行 合理 的 配置 。 

SmartCache 技术 通过 对 热点 数据 进行 智能 迁移 ,将 热点 数据 镜像 至 SSD 缓存 池 中 ,组 
存 池 中 始终 保留 最 热点 的 数据 ,提升 热点 数据 的 访问 性 能 ,通常 可 提升 5 倍 或 以 上 。 广 泛 适 
用 于 互联 网 ,运营 商 彩铃 彩信 等 应 用 场景 。 

而 对 于 非 热 点 数据 的 智能 迁移 ,N8500 通过 DST 技术 来 实现 ,通常 热点 数据 和 非 热点 
数据 大 约 是 2 : 8, 将 大 量 的 非 热点 数据 根据 策略 自动 迁移 至 廉价 的 大 容量 SATA 盘 上 , 降 
低 采 购 成 本 ,通常 可 降低 60% 的 硬盘 采购 成 本 。 相 比 业界 的 分 级 存储 ,DST 技术 的 迁移 对 
象 是 针对 文件 进行 迁移 ,热点 识别 更 精准 ,迁移 粒度 更 灵活 。 广 泛 适用 于 音 视频 点 播 、 邮 件 
系统 、 媒 资 库 等 存在 大 量 “ 冷 ”数据 的 应 用 场景 中 ,如 图 3-69 所 示 。 

(3) 本 地 数据 保护 

前 面 我 们 解决 了 存储 的 性 能 、 扩 展 性 、 空 间 利用 率 . 那 么 如 何 保证 数据 的 安全 呢 , N8500 
通过 多 种 技术 来 保证 数据 的 安全 。 

快照 技术 能 有 效 解 决 数据 的 误 删 除 , 提 升 数 据 的 安全 性 。 

N8500 后 端 连接 多 套 存储 单元 ,数据 同步 镜像 写 入 存储 单元 发 生 , 一 个 存储 单元 发 生 
故障 时 不 影响 系统 的 运行 ,提升 了 业务 的 可 靠 性 。 
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Tierl-SAS 





国 热点 数据 图“ 冷 " 数据 





Tier0-SSD Tierl-SAS 
图 3-69 智能 迁移 提升 性 能 


集成 NBU 的 备份 客户 端 ,实现 数据 的 高 效 备份 。NBU 是 赛 门 特区 公司 备份 软件 
Netbackup 的 简称 。 如 图 3-70 所 示 为 本 地 数据 的 保护 。 


有 效 防 止 误 删除 ， i 
提升 数据 的 安全 性 > as 站 时 镜像 .业务 


可 靠 性 提升 一 倍 
快照 (Snap shot) 





集成 NBU,Client 备 份 
无 乡 集 成 ,高 效 备份 
3-70 本 地 数据 保护 


(4) 异地 数据 容 灾 

有 了 本 地 的 数据 安全 保护 还 不 够 ,对 于 关键 数据 ,有 时 还 需要 在 异地 保留 一 份 数据 。 
N8000 支持 基于 SAN 空间 和 NAS 空间 的 两 个 层级 数据 复制 ,进一步 提升 数据 的 安全 性 。 
远程 复制 是 基于 改变 量 的 复制 ,占用 网 络 资 源 少 , 缩 短 复制 任务 。 生 产 站 点 数据 一 旦 发 生 丢 
失 , 可 通过 灾 备 站 点 对 数据 进行 恢复 ,如 图 3-71 所 示 。 


(5) 多 协议 融合 

N8500 支持 FCP、FCoE\iSCSI 协议 , 相 比 在 文件 系统 层面 上 再 虚拟 SAN 空间 的 方式 
有 更 高 的 效率 ;支持 基于 文件 的 NFS、CIFS、FTP、HTTP 访问 协议 ,同时 支持 NDMP、 
SNMP Syslog 等 其 他 协议 。 通 过 将 不 同 协议 融合 至 一 套 存储 系统 中 ,满足 不 同 应 用 类 型 对 
存储 的 要 求 ,简化 IT 基础 架构 ,减少 设备 数量 和 采购 成 本 ,如 图 3-72 所 示 。 

NDMP 是 由 Network Appliance Corporation 和 Legato System 公司 合作 开发 的 一 种 
基于 NAS 的 容 灾 备 份 技 术 。 它 提供 了 一 个 开放 的 协议 .利用 NAS 设备 进行 数据 的 备份 / 
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基于 改变 量 的 复制 数据 块 和 文件 两 个 层级 
网 络 资源 占用 少 复制 任务 时 间 短 
复制 
i 
Ns SAN 空 间 
灾 备 站 点 





3-71 异地 数据 容 灾 


块 访问 协议 
pP、FCoE 、iSCSI 文件 访问 协议 


NFS、CIFS、FIP、HTTP 


其 他 协议 


NDMP 、SNMP 、 
Syslog 、NTP 





图 3-72 多 协议 融合 


恢复 ,符合 NDMP 的 备份 应 用 程序 可 以 通过 它 来 控制 任何 运行 NDMP 服务 器 应 用 程序 的 
NDMP 主机 的 备份 与 恢复 。 

(6) 云 备份 场景 一 一 云 备 份 服务 商 数据 中 心 

云 备 份 应 用 场景 主要 关注 性 能 、 扩 展 性 和 对 海量 文件 的 处 理 能 力 。 华 为 N8500 采用 全 
Active 集群 架构 ,适合 海量 用 户 并 发 访问 存储 .同时 随 着 用 户 数量 的 增 大 ,数据 容量 不 断 增 
大 ,N8500 也 能 轻松 扩容 应 对 ,能 有 效 保护 原 有 投资 ,如 图 3-73 所 示 。 

3. 存储 整合 场景 一 一 数字 图 书馆 /档案 馆 

存储 整合 应 用 场景 主要 关注 存储 能 提供 丰富 的 接口 和 协议 ,提供 丰富 的 软件 特性 ,满足 
不 同 应 用 程序 .不 同 服务 等 级 对 存储 的 不 同 需求 ,在 数据 中 心 放 置 一 套 存储 就 能 满足 各 种 需 
求 。 华 为 N8500 提供 多 种 接口 模式 ,多 种 协议 类 型 对 外 提供 存储 资源 ,能 很 好 地 满足 存储 
整合 应 用 场景 的 需求 ,如 图 3-74 所 示 。 

NAS 设备 都 分 配 有 独立 的 IP 地址 ,所 以 客户 机 通过 充当 数据 网 关 的 服务 器 可 以 对 其 
进行 存 取 访问 ,甚至 不 需要 任何 中 间 介 质 客户 机 也 可 以 直接 访问 NAS 设备 ,因此 NAS 还 
可 以 作为 小 型 的 邮箱 服务 器 来 使 用 ,并 且 体 积 小 巧 、 维 护 简 单 , 再 加 上 其 售 价 相对 低廉 (与 
DAS 和 SAN 相 比 ) ,因而 受到 一 些 中 小 企业 的 欢迎 。 而 随 着 企业 的 壮大 和 云 计算 以 及 云 存 
储 的 发 展 ,数据 量 不 断 增 大 ,NAS 的 使 用 性 能 也 似乎 显得 越 来 越 力不从心 。NAS 越 来 越 不 
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企业 用 户 个 人 用 户 


@ 0 人 © 0 9 
da 蕊 [证 ay oan 


9 0 9 @ 
a 只 全 虽 卉 





。 海 量 文件 的 高 并 发 处 理 


。 弹 性 大 、 易 扩展 、 易 性 能 管理 
。 高 可 靠 运 行 





。 全 Active 集 群 架构 ,性 能 优异 ,支撑 更 多 并 发 用 户 
。 人 性能、 容量 两 个 维度 灵活 扩展 





3-73 ”多 协议 的 融合 


数据 库 ”OA/Email 教学 视频 及 电子 文档 


-和 











容 灾 站 点 。 数 据 分 散 ,“ 孤 岛 ” 现 象 严重 








。 数据 共享 困难 ,效率 低 
。 设备 种 类 多 ,管理 复杂 
e。 提供 FC/IP-SAN、NAS 融 合 架构 ,简化 IT 基础 设施 
NBs00 N8500 。 统 一 管理 界面 ,向 导 式 配置 ,简化 动 维 管理 
。 丰富 的 软件 特性 ,基于 块 和 基于 文件 


图 3-74 NAS 存储 应 用 案例 一 一 数字 图 书馆 /档案 馆 





远程 复制 















适合 作为 企业 的 网 络 存储 ,但 是 这 也 并 不 意味 着 NAS 就 此 将 被 淘汰 。 随 着 家 庭 多 媒体 的 
发 展 ,人 们 也 越 来 越 重 视 家 用 计算 机 设备 的 发 展 。 随 着 人 们 对 高 清 片 源 的 需求 不 断 增 大 , 越 
来 越 多 的 影视 作品 都 是 以 全 硬盘 的 方式 出 现 . 而 一 部 全 高 清 的 带 DTS 音 轨 的 电影 容量 可 以 
达到 十 几 甚至 几 十 千 兆 字 节 (GB) ,并 且 为 了 满足 在 卧室 和 客厅 能 够 同时 欣赏 的 需求 , 低 成 
本 网 络 存储 就 成 了 家 庭 存储 方案 的 最 好 选择 。 不 仅 如 此 ,我 们 的 其 他 家 电 也 越 来 越 智能 化 ， 
像 数 码 相机 、 数 码 摄像 机 、 电 视 机 等 都 可 以 接 入 局 域 网 中 ,因此 网 络 存储 也 成 了 绝 佳 的 多 媒 
体 仓库 。 于 是 NAS 又 走 进 了 人 们 的 视线 。 
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任务 拓展 


1. 简 述 存储 阵列 系统 的 架构 。 
2. 简 述 NAS 与 SAN 的 区 别 。 
3, 了解 各 种 存储 技术 的 案例 与 应 用 。 
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第 4 章 RAID 技术 与 应 用 


(人 任务 目标 
。 了 解 RAID 技术 的 基本 概念 ; 
。 了 解 RAID 的 不 同 级 别 ; 
。 了解 RAID 不 同 级 别 的 应 用 方向 。 


(他 项 目 背 景 


20 世纪 80 年 代 后 期 ,计算 机 在 商业 处 理 领域 的 迅速 普及 促进 了 新 应 用 程序 和 数据 库 
的 增长 ,进而 显著 提高 了 人 们 对 于 存储 容量 和 性 能 的 需求 。 在 当时 ,数据 通常 存储 在 单个 被 
称 为 SLED(SingleLargeExpensice Drive) 的 大 容量 .昂贵 的 磁盘 驱动 器 中 。 单 一 磁盘 无 法 
满足 人 们 对 性 能 的 需求 ,因为 它们 同时 只 能 提供 有 限 数量 的 MO。 

在 大 型 数据 中 心 的 存储 架构 中 ,硬盘 的 数量 少 则 几 百 ,多 则 上 万 。 在 机 械 磨 损 等 环境 因 
素 的 影响 下 ,磁盘 驱动 器 非常 容易 发 生 故 障 。 硬 盘 故 障 通 常会 导致 数据 的 丢失 。 存 储 架 构 
中 硬盘 的 数量 越 多 ,发 生硬 盘 故 障 的 概率 就 越 大 。 

如 何 解决 单一 硬盘 性 能 不 足 和 由 硬盘 正常 损耗 导致 的 数据 安全 问题 ,正式 摆 在 人 们 
面前 。 


/多 
(> 项 目 描述 

聚 比特 科技 有 限 公 司 准备 发 展 图 像 处 理 业务 ,但 突然 发 现 ,图 像 处 理工 作 需 要 确保 拥有 
大 量 的 不 断 增长 的 高 清 图 像 数据 ,而 这 类 数据 十 分 巨大 ,公司 现 有 服务 器 硬盘 根本 无 法 承 
载 ,从 而 导致 新 业务 工作 无 法 开展 ,各 级 领导 对 此 事 十 分 重视 ,责成 技术 部 门 尽快 解决 。 


(a 项 目 分 析 

涌 比 特 科技 有 限 公司 技术 部 门 对 业务 进行 了 详细 分 析 ,确认 两 种 解决 方案 ,一 种 是 通过 
增加 服务 器 硬盘 数量 ,将 图 像 文件 分 别 存储 到 各 颗 硬盘 上 。 另 一 种 是 购买 磁盘 阵列 ,通过 
RAID 技术 将 多 个 硬盘 整合 到 一 起 ,组 成 一 个 大 的 存储 系统 ,将 数据 统一 存放 到 磁盘 阵 
列 中 。 

通过 比 对 发 现 ,第 一 种 方案 成 本 较 低 , 但 由 于 文件 分 开 存放 ,导致 业务 系统 调用 困难 。 
而 且 , 当 硬 盘 数 量 越 来 越 大 时 ,单个 硬盘 故障 的 概率 也 随 之 增加 ,一 旦 某 个 硬盘 发 生 故 障 ,就 
会 导致 部 分 文件 的 丢失 。 

第 二 种 方案 成 本 相对 较 高 ,但 其 是 通过 RAID 技术 把 所 有 硬盘 整合 到 一 起 ,方便 了 业务 
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系统 对 数据 的 调用 ,并 且 对 硬盘 故障 有 元 余 保护 ,如 果 发 生 单个 硬盘 故障 ,不 会 导致 数据 丢 
失 , 对 数据 的 保护 能 力 大 大 增强 了 。 

由 于 第 二 种 方案 在 业务 系统 和 文件 数据 方面 的 巨大 优势 ,大 大 超过 了 其 对 应 的 成 本 增 
加 ,所 以 技术 部 门 决定 采用 第 二 种 方案 来 为 公司 的 新 业务 提供 大 容量 存储 支持 。 


\@ 项 目 实现 

聚 比特 科技 有 限 公司 根据 技术 部 门 的 反馈 ,采购 了 一 套 由 磁盘 阵列 构成 的 存储 系统 , 通 
过 RAID 技术 ,将 大 量 的 硬盘 整合 到 一 起 组 合成 一 个 文件 系统 ,提供 给 图 像 处 理 系统 使 用 ， 
使 得 其 图 像 处 理 业 务 顺 利 发 展 起 来 。 


4.1 RAID 技术 介绍 


4.1.1 RAID 简介 


磁盘 阵列 (Redundant Arrays of Independent Disks, RAID), 有 “独立 磁盘 构成 的 具有 
元 余 能 力 的 阵列 ”之 意 。 

RAID 技术 作为 高 性 能 、 高 可 靠 的 存储 技术 .应 用 非常 广泛 。RAID 主要 利用 数据 条 带 、 数 
据 校 验 技术 来 获取 高 性 能 .高 可 靠 性 和 高 扩展 性 ,根据 运用 或 组 合 运 用 这 三 种 技术 的 策略 和 架 
构 , 可 以 把 RAID 分 为 不 同 的 等 级 ,以 满足 不 同 数据 应 用 的 需求 。D，A. Patterson 等 的 论文 中 
定义 了 RAID1I 一 RAID5 原始 的 RAID 等 级 ,1988 年 以 来 又 扩展 了 RAIDO 和 RAID6。 近 年 来 ， 
存储 厂商 不 断 推出 诸如 RAID7、RAID10/01、RAID50、RAID53、RAID100 等 RAID 等 级 ,但 这 
些 并 无 统一 的 标准 。 目 前 业界 公认 的 标准 是 RAIDO 一 RAID5 , 除 RAID2 外 的 5 个 等 级 被 指定 
为 工业 标准 ,而 在 实际 应 用 领域 中 使 用 最 多 的 RAID 等 级 是 RAIDO、RAID1、RAID3、RAID5、 
RAID6 .RAIDO1 和 RAID10。 


4.1.2 RAID 的 实现 技术 分 类 


从 实现 角度 看 , RAID 主要 分 为 软 RAID、 硬 RAID 以 及 软 硬 混合 RAID 三 种 。 软 
RAID 的 所 有 功能 均 由 操作 系统 和 CPU 来 完成 ,没有 独立 的 RAID 控制 /处 理 芯片 和 IO 
处 理 芯片 ,效率 自然 最 低 。 硬 RAID 配备 了 专门 的 RAID 控制 /处 理 芯片 和 IVO 处 理 芯 片 以 
及 阵列 缓冲 ,不 占用 CPU 资源 ,但 成 本 很 高 。 软 硬 混合 RAID 具备 RAID 控制 /处 理 芯 片 ， 
但 缺乏 I/O 处 理 芯片 ,需要 CPU 和 驱动 程序 来 完成 ,性 能 和 成 本 在 软 RAID 和 硬 RAID 
之 间 。 


4.1.3 RAID 的 基本 原理 


简单 来 说 ,RAID 是 由 多 个 独立 的 高 性 能 磁盘 驱动 器 组 成 的 磁盘 子 系统 ,从 而 提供 比 单 
个 磁盘 更 高 的 存储 性 能 和 数据 宛 余 的 技术 。RAID 是 一 类 多 磁盘 管理 技术 ,其 向 主机 环境 
提供 了 成 本 适中 ,数据 可 靠 性 高 的 高 性 能 存储 。 通 常 对 RAID 的 定义 是 : 一 种 磁盘 阵列 ,部 
分 物理 存储 空间 用 来 记录 保存 在 剩余 空间 上 的 用 户 数据 的 元 余 信 息 。 当 其 中 某 一 个 磁盘 或 
访问 路 径 发 生 故 障 时 , 宛 余 信息 可 用 来 重建 用 户 数据 。 磁 盘 条 带 化 虽然 与 RAID 定义 不 符 ， 
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通常 还 是 称 为 RAID( 即 RAID0)。 

RAID 的 初衷 是 为 大 型 服务 器 提供 高 端的 存储 功能 和 苑 余 的 数据 安全 。 在 整个 系统 
中 ,RAID 被 看 作 是 由 两 个 或 更 多 磁盘 组 成 的 存储 空间 ,通过 并 发 地 在 多 个 磁盘 上 读 写 数据 
来 提高 存储 系统 的 IO 性 能 。 大 多 数 RAID 等 级 具有 完备 的 数据 校 验 、 纠 正 措施 ,从 而 提 
高 系统 的 容错 性 甚至 镜像 方式 ,大 大 增强 系统 的 可 靠 性 ,Redundant 也 由 此 而 来 。 

这 里 要 提 一 下 JBOD(Just a Bunch of Disks) 。 最 初 JBOD 用 来 表示 一 个 没有 控制 软件 
提供 协调 控制 的 磁盘 集合 ,这 是 RAID 区 别 于 JBOD 的 主要 因素 。 目 前 JBOD 常 指 磁盘 柜 ， 
而 不 论 其 是 否 提供 RAID 功能 。 

RAID 的 两 个 关键 目标 是 提高 数据 可 靠 性 和 IVO 性能。 磁盘 阵列 中 ,数据 分 散在 多 个 
磁盘 中 ,然而 对 于 计算 机 系统 来 说 ,就 像 一 个 单独 的 磁盘 。 通 过 把 相同 数据 同时 写 人 到 多 块 
磁盘 (典型 地 如 镜像 ) ,或 者 将 计算 的 校 验 数据 写 入 阵列 中 来 获得 元 余 能 力 , 当 单 块 磁盘 出 现 
故障 时 可 以 保证 不 会 导致 数据 丢失 。 有 些 RAID 等 级 允许 更 多 的 磁盘 同时 发 生 故 障 ,比如 
RAID6, 可 以 是 两 块 磁盘 同时 损坏 。 在 这 样 的 元 余 机 制 下 ,可 以 用 新 磁盘 蔡 换 故障 磁盘 ， 
RAID 会 自动 根据 剩余 磁盘 中 的 数据 和 校 验 数据 重建 丢失 的 数据 ,保证 数据 的 一 致 性 和 完 
整 性 。 数 据 分 散 保存 在 RAID 中 的 多 个 不 同 磁盘 上 ,并 发 数据 读 写 要 大 大 优 于 单个 磁盘 , 因 
此 可 以 获得 更 高 的 聚合 1/O 带宽 。 当 然 , 磁 盘 阵列 会 减少 全 体 磁盘 的 总 可 用 存储 空间 ,并 
通过 牺牲 空间 换取 更 高 的 可 靠 性 和 性 能 。 比 如 ,RAIDI1 存储 空间 利用 率 仅 有 50% ,RAID5 
会 损失 其 中 一 个 磁盘 的 存储 容量 ,空间 利用 率 为 (x 一 1)/n。 

磁盘 阵列 可 以 在 部 分 磁盘 ( 单 块 或 多 块 ,根据 实现 而 论 ) 损 坏 的 情况 下 仍 能 保证 系统 不 
中 断 地 连续 运行 。 在 重建 故障 磁盘 数据 至 新 磁盘 的 过 程 中 ,系统 可 以 继续 正常 运行 ,但 是 性 
能 方面 会 有 一 定 程度 上 的 降低 。 一 些 磁 盘 阵 列 在 添加 或 删除 磁盘 时 必须 停机 ,而 有 些 则 支 
持 热 交换 (Hot Swapping) ,允许 不 停机 下 蔡 换 磁 盘 驱 动 器 。 这 种 高 端 磁盘 阵列 主要 用 于 要 
求 高 可 能 性 的 应 用 系统 ,系统 不 能 停机 或 尽 可 能 少 停机 。 一 般 来 说 ,RAID 不 可 作为 数据 备 
份 的 蔡 代 方 案 , 它 对 非 磁盘 故障 等 造成 的 数据 丢失 无 能 为 力 , 比 如 病毒 人 为 破坏 、 意 外 删除 
等 情形 。 此 时 的 数据 丢失 是 相对 操作 系统 ,文件 系统 、 卷 管理 器 或 者 应 用 系统 来 说 的 ,对 于 
RAID 系统 来 说 ,数据 都 是 完好 的 ,没有 发 生 丢 失 。 所 以 ,数据 备份 、 灾 备 等 数据 保护 措施 是 
非常 必要 的 ,与 RAID 相辅相成 ,保护 数据 在 不 同 层次 的 安全 性 ,防止 发 生 数 据 丢 失 。 


4.1.4 RAID 的 关键 技术 


RAID 中 主要 有 三 个 关键 概念 和 技术 : 镜像 (Mirroring) ,数据 条 带 (Data Stripping) 和 
数据 校 验 (Data Parity) 。 

1. 镜像 

镜像 是 一 种 元 余 技 术 , 为 磁盘 提供 保护 功能 ,防止 磁盘 因 发 生 故 障 而 造成 数据 丢失 。 对 
于 RAID 而 言 , 采 用 镜像 技术 典型 地 将 会 同时 在 阵列 中 产生 两 个 完全 相同 的 数据 副本 ,分布 
在 两 个 不 同 的 磁盘 驱动 器 组 上 。 镜 像 提供 了 完全 的 数据 元 余 能 力 , 当 一 个 数据 副本 失效 不 
可 用 时 ,外 部 系统 仍 可 正常 访问 另 一 个 数据 副本 ,不 会 对 应 用 系统 的 运行 和 性 能 产生 影响 。 
而 且 ,镜像 不 需要 额外 的 计算 和 校 验 ,故障 修复 非常 快 ,直接 复制 即 可。 镜像 技术 可 以 从 多 
个 副本 进行 并 发 读 取 数据 ,提供 更 高 的 读 I/O 性 能 ,但 不 能 并 行 写 数据 , 写 多 个 副本 会 导致 
一 定 的 1/O 性 能 降低 。 
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镜像 技术 提供 了 非常 高 的 数据 安全 性 ,其 代价 也 是 非常 昂贵 的 ,需要 至 少 双 倍 的 存储 空 
间 。 高 成 本 限制 了 镜像 的 广泛 应 用 ,主要 应 用 于 至 关 重 要 的 数据 保护 ,这 种 场合 下 数据 丢失 
会 造成 巨大 的 损失 。 另 外 ,镜像 通过 “ 拆 分 ”能 获得 特定 时 间 点 的 数据 快照 ,从 而 可 以 实现 一 
种 备份 窗口 几乎 为 零 的 数据 备份 技术 。 

2. 数据 条 带 

磁盘 存储 的 性 能 瓶颈 在 于 磁头 寻 道 定位 , 它 是 一 种 慢 速 机 械 运 动 , 无 法 与 高 速 的 CPU 
匹配 。 再 者 ,单个 磁盘 驱动 器 性 能 存在 物理 极限 ,I/O 性 能 非常 有 限 。RAID 由 多 块 磁盘 组 
成 ,数据 条 带 技术 将 数据 以 块 的 方式 分 布 存储 在 多 个 磁盘 中 ,从 而 可 以 对 数据 进行 并 发 处 
理 。 这 样 写 人 和 读 取 数据 就 可 以 在 多 个 磁盘 上 同时 进行 ,并 发 产生 非常 高 的 聚合 IO, 有 效 
提高 了 整体 1/O 性 能 ,而 且 具 有 和 良好 的 线性 扩展 性 。 这 对 大 容量 数据 尤其 显著 ,如 果 不 分 
块 ,数据 只 能 按 顺序 存储 在 磁盘 阵列 的 磁盘 上 ,需要 时 再 按 顺序 读 取 。 而 通过 条 带 技术 ,可 
获得 数 倍 于 顺序 访问 的 性 能 提升 。 

数据 条 带 技术 的 分 块 大 小 选择 非常 关键 。 条 带 粒 度 可 以 是 一 个 字 节 甚至 至 几 千 字 节 
(CKB) 大 小 ,分 块 越 小 ,并 行 处 理 能 力 就 越 强 ,数据 存 取 速度 就 越 高 ,但 同时 就 会 增加 块 存 取 
的 随机 性 和 块 寻 址 时 间 。 实 际 应 用 中 ,要 根据 数据 特征 和 需求 来 选择 合适 的 分 块 大 小 ,在 数 
据 存 取 随 机 性 和 并 发 处 理 能 力 之 间 进 行 平衡 ,以 争取 尽 可 能 高 的 整体 性 能 。 

数据 条 带 是 基于 提高 I/O 性 能 而 提出 的 ,也 就 是 说 它 只 关注 性 能 ,而 对 数据 可 靠 性 、 可 
用 性 没有 任何 改善 。 实 际 上 ,其 中 任何 一 个 数据 条 带 损坏 都 会 导致 所 有 数据 不 可 用 ,采用 数 
据 条 带 技术 反而 增加 了 数据 发 生 丢失 的 概率 。 

3. 数据 校 验 

镜像 具有 高 安全 性 、 高 读 性 能 ,但 元 余 开销 太 昂贵 。 数 据 条 带 通 过 并 发 性 来 大 幅 提 高 性 
能 ,然而 对 数据 安全 性 、 可 靠 性 未 作 考虑 。 数 据 校 验 是 一 种 元 余 技术 , 它 用 校 验 数据 来 提供 
数据 的 安全 ,可 以 检测 数据 错误 ,并 在 能 力 允 许 的 前 提 下 进行 数据 重 构 。 相 对 于 镜像 ,数据 
校 验 大 幅 缩 减 了 宛 余 开 销 , 用 较 小 的 代价 换取 了 极 佳 的 数据 完整 性 和 可 靠 性 。 数 据 条 带 技 
术 提 供 高 性 能 ,数据 校 验 提供 数据 安全 性 ,RAID 不 同等 级 往往 同时 结合 使 用 这 两 种 技术 。 

采用 数据 校 验 时 ,RAID 要 在 写 入 数据 的 同时 进行 校 验 计算 ,并 将 得 到 的 校 验 数据 存储 
在 RAID 成 员 磁 盘 中 。 校 验 数据 可 以 集中 保存 在 某 个 磁盘 或 分 散 存 储 在 多 个 不 同 磁盘 中 ， 
甚至 校 验 数据 也 可 以 分 块 ,不 同 RAID 等 级 实现 各 不 相同 。 当 其 中 一 部 分 数据 出 错时 ,就 可 
以 对 剩余 数据 和 校 验 数 据 进 行 反 校 验 计算 来 重建 丢失 的 数据 。 校 验 技术 相对 于 镜像 技术 的 
优势 在 于 节省 了 大 量 开销 ,但 由 于 每 次 数据 读 写 都 要 进行 大 量 的 校 验 运算 ,对 计算 机 的 运算 
速度 要 求 很 高 ,必须 使 用 硬件 RAID 控制 器 。 在 数据 重建 恢复 方面 ,检验 技术 比 镜像 技术 复 
杂 得 多 且慢 得 多 。 

海 明 校 验 码 和 蜡 或 校 验 是 两 种 最 为 常用 的 数据 校 验算 法 。 海 明 校 验 码 是 由 理 查 德 ， 海 
明 提 出 的 ,不 仅 能 检测 错误 ,还 能 给 出 错误 位 置 并 自动 纠正 。 海 明 校 验 的 基本 思想 是 : 将 有 
效 信息 按照 某 种 规律 分 成 若干 组 ,对 每 一 个 组 作 奇 偶 测试 并 安排 一 个 校 验 位 ,从 而 能 提供 多 
位 检 错 信息 ,以 定位 错误 点 并 纠正 。 可 见 海 明 校 验 实质 上 是 一 种 多 重 奇偶 校 验 。 异 或 校 验 
通过 异 或 逻辑 运算 产生 ,将 一 个 有 效 信息 与 一 个 给 定 的 初始 值 进行 异 或 运算 ,会 得 到 校 验 信 
息 。 如 果 有 效 信息 出 现 错误 ,通过 校 验 信息 与 初始 值 的 异 或 运算 能 还 原 正确 的 有 效 信息 。 
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4.1.5 RAID 的 优势 


RAID 思想 从 提出 后 就 广泛 被 业界 所 接纳 ,存储 工业 界 投入 了 大 量 的 时 间 和 财力 来 研 
究 和 开发 相关 产品 。 而 且 , 随 着 处 理 器 、 内 存 、 计 算 机 接口 等 技术 的 不 断 发 展 ,RAID 不 断 地 
发 展 和 革新 ,在 计算 机 存储 领域 得 到 了 广泛 的 应 用 ,从 高 端 系 统 逐 渐 延 伸 到 普通 的 中 低 端 系 
统 。RAID 技术 如 此 流行 , 源 于 其 具有 显著 的 特征 和 优势 ,基本 可 以 满足 大 部 分 的 数据 存储 
需求 。 总 体 来 说 ,RAID 主要 优势 有 如 下 几 点 。 

1. 大 容量 

这 是 RAID 的 一 个 显然 优势 , 它 扩 大 了 磁盘 的 容量 ,由 多 个 磁盘 组 成 的 RAID 系统 具有 
海量 的 存储 空间 。 现 在 单个 磁盘 的 容量 就 可 以 到 1TB 以 上 ,这 样 RAID 的 存储 容量 就 可 以 
达到 PB 级 ,大 多 数 的 存储 需求 都 可 以 满足 。 一 般 来 说 ,RAID 可 用 容量 要 小 于 所 有 成 员 磁 
盘 的 总 容量 。 不 同等 级 的 RAID 算法 需要 一 定 的 元 余 开销 ,具体 容量 开销 与 采用 算法 相关 。 
如 果 已 知 RAID 算法 和 容量 ,可 以 计算 出 RAID 的 可 用 容量 。 通 常 ,RAID 容量 利用 率 在 
50% 一 90% 之 间 。 

2. 高 性 能 

RAID 的 高 性 能 受益 于 数据 条 带 化 技术 。 单 个 磁盘 的 1/O 性 能 受到 接口 ,带宽 等 计算 
机 技术 的 限制 ,性 能 往往 很 有 限 ,容易 成 为 系统 性 能 的 瓶颈 。 通 过 数据 条 带 化 ,RAID 将 数 
据 I/O 分 散 到 各 个 成 员 磁盘 上 ,从 而 获得 比 单个 磁盘 成 倍增 长 的 聚合 1/O 性 能 。 

3. 可 靠 性 

可 用 性 和 可 靠 性 是 RAID 的 另 一 个 重要 特征 。 从 理论 上 讲 , 由 多 个 磁盘 组 成 的 RAID 
系统 在 可 靠 性 方面 应 该 比 单个 磁盘 要 差 。 这 里 有 个 隐 含 假定 : 单个 磁盘 故障 将 导致 整个 
RAID 不 可 用 。RAID 采用 镜像 和 数据 校 验 等 数据 完 余 技术 ,打破 了 这 个 假定 。 镜 像 是 最 
为 原始 的 完 余 技术 ,把 某 组 磁盘 驱动 器 上 的 数据 完全 复制 到 另 一 组 磁盘 驱动 器 上 ,保证 总 有 
数据 副本 可 用 。 比 起 镜像 50% 的 元 余 开 销 , 数 据 校 验 要 小 很 多 , 它 利 用 校 验 元 余 信息 对 数 
据 进行 校 验 和 纠 错 。RAID 元 余 技 术 大 幅 提 升 了 数据 可 用 性 和 可 靠 性 ,保证 了 若干 磁盘 出 
错时 不 会 导致 数据 的 丢失 ,不 影响 系统 的 连续 运行 。 

4. 可 管理 性 

实际 上 ,RAID 是 一 种 虚拟 化 技术 , 它 将 多 个 物理 磁盘 驱动 器 虚拟 成 一 个 大 容量 的 逻辑 
了 驱动器。 对 于 外 部 主机 系统 来 说 ,RAID 是 一 个 单一 的 ,快速 可 靠 的 大 容量 磁盘 驱动 器 。 这 
样 ,用 户 就 可 以 在 这 个 虚拟 驱动 器 上 来 组 织 和 存储 应 用 系统 数据 。 从 用 户 应 用 角度 看 ,可 使 
存储 系统 简单 易 用 ,管理 也 很 便利 。 由 于 RAID 内 部 完成 了 大 量 的 存储 管理 工作 ,管理 员 只 
需要 管理 单个 虚拟 驱动 器 ,就 可 以 节省 大 量 的 管理 工作 。RAID 可 以 动态 增 减 磁盘 驱动 器 ， 
可 自动 进行 数据 校 验 和 数据 重建 ,这 些 都 可 以 大 大 简化 管理 工作 。 


4.2 ”RAID 级 别 分 类 


RAID 每 一 个 等 级 代表 一 种 实现 方法 和 技术 ,等 级 之 间 并 无 高 低 之 分 。 在 实际 应 用 中 ， 
应 当 根 据 用 户 的 数据 应 用 特点 ,综合 考虑 可 用 性 、 性 能 和 成 本 来 选择 合适 的 RAID 等 级 ,以 
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及 具体 的 实现 方式 。 
4.2.1 RAIDO 


RAID0 是 一 种 简单 的 、 无 数据 校 验 的 数据 条 带 化 技术 。 但 它 和 其 他 RAID 级 别 有 个 很 


明显 的 区 别 一 一 并 不 提供 任何 形式 的 元 余 策 略 。RAID0 将 所 在 
磁盘 条 带 化 后 组 成 大 容量 的 存储 空间 ,将 数据 分 散 存 储 在 所 有 磁 
盘 中 ,实现 多 块 磁盘 的 同时 读 写 , 如 图 4-1 所 示 。 由 于 可 以 并 发 执 
行 1/O 操作 ,总 线 带 宽 得 到 充分 利用 ,大幅 提高 了 读 写 速度 。 因 
为 不 需要 进行 数据 校 验 ,通常 情况 下 RAIDO 的 性 能 在 所 有 RAID 
等 级 中 是 最 高 的 。 理 论 上 讲 , 在 其 他 条 件 无 限制 的 情况 下 ,一 个 
由 n 块 磁盘 组 成 的 RAID0, 它 的 读 写 性 能 是 单个 磁盘 性 能 的 7 
倍 。 值 得 注意 的 是 ,如 果 在 组 成 RAID0 的 磁盘 中 .有 一 块 磁盘 性 
能 较 差 .容量 较 低 ,那么 该 RAID0 的 理论 性 能 是 由 这 块 磁盘 的 性 
能 、 容 量 来 作为 计算 基数 的 。 

RAID0 具有 低 成 本 、 高 读 写 性 能 、100% 的 高 存储 空间 利用 率 
等 优点 ,但 是 它 不 提供 数据 元 余 保护 ,一 旦 数据 损坏 ,将 无 法 恢 


RAIDO 


eb 
A 


Disk 0 Disk 1 
4-1 RAID0 示意 图 


复 。 因 此 ,RAID0 一 般 适 用 于 对 性 能 要 求 严格 但 对 数据 安全 性 和 可 靠 性 不 高 的 应 用 ,如 视 


频 、 音 频 存 储 、 临 时 数据 缓存 空间 等 。 
4.2.2 RAIDI1 


RAID1 称 为 镜像 , 它 将 数据 完全 一 致 地 分 别 写 到 工作 磁盘 和 镜像 磁盘 上 , 它 的 磁盘 空 
间 利 用 率 为 50%。 因 其 实现 原理 的 问题 ,RAID1 的 读 写 性 能 较 低 , 读 写 性 能 在 RAID 正常 
RAIDI 的 情况 下 基本 没有 改变 。RAID1 提供 了 最 佳 的 数据 保护 ,一 旦 工 

作 磁 盘 发 生 故 障 ,系统 自动 从 镜像 磁盘 读 取 数 据 , 不 会 影响 用 户 


的 工作 。 工 作 原 理 如 图 4-2 所 示 。 


eee 
RD 


RAID1 与 RAIDO 刚好 相反 ,是 为 了 增强 数据 安全 性 使 两 块 
磁盘 数据 呈现 完全 镜像 ,从 而 达到 安全 性 好 、 技 术 简单 、 管 理 方 
便 。RAID1 拥有 完全 容错 的 能 力 , 但 实现 成 本 高 。 比 如 ,一 个 由 


2 个 2TB 磁盘 组 成 的 RAID1, 其 容量 只 有 2TB, 但 是 RAID1 能 在 
1 个 磁盘 损坏 的 情况 下 支持 数据 不 丢失 ,其 对 数据 安全 的 保护 上 
是 非常 高 的 RAID 级 别 。RAIDI1 应 用 于 对 顺序 读 写 性 能 要 求 高 
Disk 0 Disk1 ”以 及 对 数据 保护 极为 重视 的 应 用 .如 对 邮件 系统 、 财 务 系统 的 数 


图 4-2 RAID1 示意 图。 据 保护 。 


4.2.3 RAID2 


RAID2 称 为 纠 错 海 明 码 磁盘 阵列 ,其 设计 思想 是 利用 海 明 码 实 现 数 据 校 验 元 余 。 海 明 
码 是 一 种 在 原始 数据 中 加 入 若干 校 验 码 来 进行 错误 检测 和 纠正 的 编码 技术 ,其 中 第 2n 位 
(1,2,4,8,…) 是 校 验 码 ,其 他 位 置 是 数据 码 。 因 此 在 RAID2 中 ,数据 按 位 存储 ,每 块 磁盘 存 
储 一 位 数据 编码 ,磁盘 数量 取决 于 所 设 定 的 数据 存储 宽度 ,可 巾 用户 设 定 。 如 图 4-3 所 示 是 
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数据 宽度 为 4 的 RAID2, 它 需要 4 块 数据 磁盘 和 3 块 校 验 磁 盘 。 如 果 是 64 位 数据 宽度 , 则 
需要 64 块 数据 磁盘 和 7 块 校 验 磁盘 。 可 见 , RAID2 的 数据 宽度 越 大 ,存储 空间 利用 率 越 
高 ,但 同时 需要 的 磁盘 数量 也 越 多 。 














Disk0 Diskl Disk2 Disk3 Disk4 Disk5 Disk6 
图 4-3 RAID2 海 明 码 校 验 


海 明 码 自身 具备 纠 错 能 力 ,因此 RAID2 可 以 在 数据 发 生 错 误 的 情况 下 纠正 错误 ,保证 
数据 的 安全 性 。 它 的 数据 传输 性 能 相当 高 ,设计 复杂 性 要 低 于 后 面 介绍 的 RAID3、RAID4 
和 RAID5。 

但 是 , 海 明 码 的 数据 元 余 开 销 太 大 ,而 且 RAID2 的 数据 输出 性 能 受 阵列 中 最 慢 磁 盘 驱 
动 器 的 限制 。 再 者 , 海 明 码 是 按 位 运算 ,RAID2 数据 重建 非常 耗 时 。 由 于 这 些 显 著 的 缺陷 ， 
再 加 上 大 部 分 磁盘 驱动 器 本 身 都 具备 了 纠 错 功能 ,因此 RAID2 在 实际 中 很 少 应 用 ,没有 形 
成 商业 产品 ,目前 主流 存储 磁盘 阵列 均 不 提供 RAID2 支持 。 


4.2.4 RAID3 


RAID3 是 使 用 专用 校 验 盘 的 并 行 访 问 阵列 , 它 采 用 一 个 专用 的 磁盘 作为 校 验 盘 ,其 余 
磁盘 作为 数据 盘 , 数 据 按 位 可 字 节 的 方式 交叉 存储 到 各 个 数据 盘 中 ,如 图 4-4 所 示 。RAID3 
至 少 需要 3 个 磁盘 ,不 同 磁盘 上 同一 带 区 的 数据 作 XOR 校 验 , 校 验 值 写 入 校 验 盘 中 。 
RAID3 正常 时 读 性 能 与 少 1 个 磁盘 的 RAIDO 完全 一 致 ,并 行 从 多 个 磁盘 条 带 读 取 数 据 , 性 
能 较 高 ,同时 还 提供 了 数据 容错 能 力 , 在 1 个 硬盘 出 现 故 障 的 情况 下 支持 数据 不 丢失 。 向 

RAID3 
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4-4 RAID3 示意 图 
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RAID3 写 入 数据 时 , 因 增 加 了 计算 和 写 入 校 验 值 的 过 程 ,所 以 写 性 能 较 低 。 

如 果 RAID3 中 某 一 磁盘 出 现 故障 ,不 会 影响 数据 读 取 , 可 以 借助 校 验 数据 和 其 他 完好 
数据 来 重建 数据 。 假 如 所 要 读 取 的 数据 块 正好 位 于 失效 磁盘 上 , 则 系统 需要 读 取 所 有 同一 
条 带 的 数据 块 ,并 根据 校 验 值 重建 丢失 的 数据 ,系统 性 能 将 受到 影响 。 当 故障 磁盘 被 更 换 
后 ,RAID 系统 按 相同 的 方式 重建 故障 盘 中 的 数据 至 新 磁盘 上 。 

RAID3 只 有 1 个 校 验 盘 ,阵列 的 存储 空间 利用 率 较 高 ,再 加 上 并 行 访 问 的 特征 ,能 够 为 
高 带宽 的 大 量 读 写 提供 高 性 能 ,适用 大 容量 数据 的 顺序 访问 应 用 ,如 影像 处 理 、 流 媒体 服务 
等 。 但 是 , 随 着 RAID5 算法 的 不 断 改进 ,在 大 数据 量 读 取 时 能 够 模拟 RAID3 ,而 且 RAID3 
在 出 现 坏 盘 时 会 出 现 性 能 大 幅 下 降 的 情况 ,因此 现在 的 RAID3 大 部 分 已 被 RAID5 替代 了 。 


4.2.5 RAID4 


RAID4 与 RAID3 的 原理 大 致 相同 ,区 别 在 于 条 带 化 的 方式 不 同 。RAID4( 图 4-5) 按 照 
块 的 方式 来 组 织 数据 , 写 操作 只 涉及 当前 数据 盘 和 校 验 盘 两 个 盘 , 多 个 1/O 请 求 可 以 同时 
得 到 处 理 , 提 高 了 系统 性 能 。RAID4 按 块 存储 可 以 保证 单 块 的 完整 性 ,可 以 避免 受到 其 他 
磁盘 上 同 条 带 产 生 的 不 利 影响 。 





RAID4 
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图 4-5 带 有 专用 块 级 校 验 的 数据 条 带 

















RAID4 在 不 同 磁盘 上 的 同 级 数据 块 同样 使 用 XOR 校 验 ,结果 存储 在 校 验 盘 中 。 写 入 
数据 时 ,RAID4 按 这 种 方式 把 各 磁盘 上 的 同 级 数据 的 校 验 值 写 入 校 验 盘 , 读 取 时 进行 即时 
校 验 。 因 此 , 当 某 个 磁盘 的 数据 块 损坏 ,RAID4 可 以 通过 校 验 值 以 及 其 他 磁盘 上 的 同 级 数 
据 块 进行 数据 重建 。 

RAID4 提供 了 非常 好 的 读 性 能 ,但 单一 的 校 验 盘 往 往 成 为 系统 性 能 的 瓶颈 。 对 于 写 操 
作 ,RAID4 只 能 一 个 磁盘 一 个 磁盘 地 写 , 并 且 还 要 写 入 校 验 数据 ,因此 写 性 能 比较 差 。 而 且 
随 着 成 员 磁 盘 数 量 的 增加 , 校 验 盘 的 系统 瓶颈 将 更 加 突出 。 正 是 如 上 这 些 限制 和 不 足 ， 
RAID4 在 实际 应 用 中 很 少见 ,主流 存储 产品 也 很 少 使 用 RAID4 保护 。 


4.2.6 RAIDS 


RAID5 应 该 是 目前 最 常见 的 RAID 等 级 , 它 的 原理 与 RAID3 相似 ,区 别 在 于 校 验 数据 
分 布 在 阵列 中 的 所 有 磁盘 上 ,而 没有 采用 专门 的 校 验 磁盘 ,如 图 4-6 所 示 。 对 于 数据 和 校 验 


128 


第 4 章 RAD 技术 与 应 用 





数据 ,它们 的 写 操 作 可 以 同时 发 生 在 完全 不 同 的 磁盘 上 。 因 此 ,RAID5 不 存在 RAID3 中 的 
并 发 写 操作 时 的 校 验 盘 性 能 瓶颈 问题 。 另 外 ,RAID5 还 具备 很 好 的 扩展 性 。 当 阵列 磁盘 数 
量 增加 时 ,并 行 操作 量 的 能 力也 随 之 增长 ,从 而 拥有 更 高 的 容量 以 及 更 高 的 性 能 。 


RAID5 
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4-6 ”RAID5 示意 图 


RAID5 的 磁盘 上 同时 存储 数据 和 校 验 数据 ,数据 块 和 对 应 的 校 验 信息 保存 在 不 同 的 磁 
盘 上 。 当 一 个 数据 盘 损 坏 时 ,系统 可 以 根据 同一 条 带 的 其 他 数据 块 和 对 应 的 校 验 数据 来 重 
建 损坏 的 数据 。 与 其 他 RAID 等 级 一 样 ,重建 数据 时 ,RAID5 的 性 能 会 受到 较 大 的 影响 。 

RAID5 兼顾 存储 性 能 .数据 安全 和 存储 成 本 等 各 方面 因素 , 它 可 以 理解 为 RAIDO 和 
RAIDI1 的 折 中 方案 ,是 目前 综合 性 能 最 佳 的 数据 保护 解决 方案 。RAID5 基本 上 可 以 满足 
大 部 分 的 存储 应 用 需求 ,数据 中 心 大 多 采用 它 作 为 应 用 数据 的 保护 方案 。 


4.2.7 RAID6 


前 面 所 述 的 各 个 RAID 等 级 都 只 能 保 让 因 单 个 磁盘 失效 而 造成 的 数据 丢失 。 如 果 两 个 
磁盘 同时 发 生 故障 ,数据 将 无 法 恢复 。RAID6 引入 双重 校 验 的 概念 , 它 可 以 保证 阵列 中 同 
时 出 现 两 个 磁盘 失效 时 阵列 仍 能 够 继续 工作 ,不 会 发 生 数据 丢失 。RAID6 等 级 是 在 RAID5 
的 基础 上 为 了 进一步 增强 数据 保护 而 设计 的 一 种 RAID 方式 , 它 可 以 看 作 是 一 种 扩展 的 
RAID5 等 级 。 

RAID6 不 仅 要 支持 数据 的 恢复 ,还 要 支持 校 验 数据 的 恢复 ,因此 实现 代价 很 高 ,控制 器 
的 设计 也 比 其 他 等 级 更 复杂 、 更 昂贵 。RAID6 思想 最 常见 的 实现 方式 是 采用 两 个 独立 的 校 
验算 法 ,假设 称 为 P 和 Q, 校 验 数据 可 以 分 别 存储 在 两 个 不 同 的 校 验 盘 上 ,或 者 分 散 存储 在 
所 有 成 员 磁盘 中 。 当 两 个 磁盘 同时 失效 时 , 即 可 通过 求解 两 元 方程 来 重建 两 个 磁盘 上 的 数 
据 。 如 图 4-7 所 示 。 

RAID6 具有 快速 的 读 取 性 能 、 更 高 的 容错 能 力 。 但 是 , 它 的 成 本 要 高 于 RAID5, 写 性 能 
也 比 RAID5 差 一 些 。 因 此 ,RAID6 主要 用 于 对 数据 安全 等 级 要 求 较 高 的 场合 。 它 一 般 是 
替代 RAID10 方案 的 经 济 性 选择 。 


4.2.8 RAID 组 合 等 级 


标准 RAID 等 级 各 有 优势 和 不 足 。 自 然 地 ,我 们 会 想到 把 多 个 RAID 等 级 组 合 起 来 , 实 
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4-7 ”RAID6 示意 图 


现 优势 互补 ,弥补 相互 的 不 足 , 从 而 达到 在 性 能 .数据 安全 性 等 指标 上 更 高 的 RAID 系统 。 
目前 在 业界 和 学 术 研 究 中 提 到 的 RAID 组 合 等 级 主要 有 RAID00、RAID01、 RAID10、 
RAID100、RAID30、RAID50、RAID53、RAID60, 但 实际 得 到 较为 广泛 应 用 的 只 有 RAID01 
和 RAID10 两 个 等 级 。 当 然 , 组 合 等 级 的 实现 成 本 一 般 都 非常 昂贵 ,只 是 在 少数 特定 场合 
应 用 。 

1. RAIDOO 

简单 地 说 ,RAID00 是 由 多 个 成 员 RAID0 组 成 的 高 级 RAID0。 它 与 RAIDO 的 区 别 在 
于 ,RAID0 阵列 替换 了 原先 的 成 员 磁 盘 。 可 以 把 RAID00 理解 为 两 层 条 带 化 结构 的 磁盘 阵 
列 , 即 对 条 带 再 进行 条 带 化 。 这 种 阵列 可 以 提供 更 大 的 存储 容量 、 更 高 的 1/O 性 能 和 更 好 
的 VO 负 均 衡 。 

2. RAID0L 和 RAID10 

一 些 文献 把 这 两 种 RAID 等 级 看 作 是 等 同 的 ,本 书 认为 是 不 同 的 。RAID01 是 先 做 条 
带 化 再 作 镜 像 ,本 质 是 对 物理 磁盘 实现 镜像 ;而 RAID10 是 先 做 镜像 再 作 条 带 化 ,是 对 虚拟 
磁盘 实现 镜像 。 相 同 的 配置 下 ,通常 RAID01 比 RAID10 具有 更 好 的 容错 能 力 ,原理 如 
4-8 所 示 。 


RAIDI+0 RAIDO+1 
RAIDO RAIDI1 
RAIDI1 RAIDO RAIDO 








OD 
昌国 放 
到 as 


图 4-8 ”典型 的 RAID01( 左 ) 和 RAID10( 右 ) 模 型 


RAID01 兼备 了 RAID0 和 RAIDI1 的 优点 , 它 先 用 两 块 磁盘 建立 镜像 ,然后 再 在 镜像 内 
部 做 条 带 化 。RAID01 的 数据 将 同时 写 入 两 个 磁盘 阵列 中 .如 果 其 中 一 个 阵列 损坏 , 仍 可 继 
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续 工作 ,保证 数据 安全 性 的 同时 又 提高 了 性 能 。RAID01 和 RAID10 内 部 都 含有 RAID1 模 
式 ,因此 整体 磁盘 利用 率 均 仅 为 50%。 
3. RAID100 
RAID100 通常 看 作 RAID 1 十 0 十 0, 有 时 也 称 为 RAID 10 十 0, 即 条 带 化 的 RAID10, 原 
理 如 图 4-9 所 示 。RAID100 的 缺陷 与 RAID10 相同 ,任意 一 个 RAID1 损坏 一 个 磁盘 不 会 发 
生 数 据 丢 失 ,但 是 剩 下 的 磁盘 存在 单 点 故障 的 危险 。 最 顶层 的 RAID0, 即 条 带 化 任务 ,通常 
由 软件 层 来 完成 。 











RAID0 
RAIDO RAIDO 
RAIDI1 RAIDI1 RAIDI1 RAIDI1 
目 计 
Disk0 Disk1l Disk2 Disk3 Disk4 Disk5 Disk6 Disk7 
120GB 120GB 120GB 120GB 120GB 120GB 120GB 120GB 


4-9 ”典型 的 RAID100 模型 


RAID100 突破 了 单个 RAID 控制 器 对 物理 磁盘 数量 的 限制 ,可 以 获得 更 高 的 1/O 负载 
均衡 ,I/O 压力 分 散 到 更 多 的 磁盘 上 ,进一步 提高 随机 读 性 能 ,并 有 效 降低 热点 盘 故 障 风险 。 
因此 ,RAID100 通常 是 大 数据 库 的 最 佳 选择 。 

4. RAID30(RAIDS3) .RAIDS0 和 RAID60 

这 三 种 RAID 等 级 与 RAID00 原理 基本 相同 ,区 别 在 于 成 员 * 磁 盘 ” 换 成 了 RAID3、 
RAID5 和 RAID6 ,分别 如 图 4-10 一 图 4-12 所 示 。 其 中 ,RAID30 通常 又 称 为 RAID53。 其 
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图 4-10 典型 的 RAID30 模型 











人 





Eee 








131 


数据 安全 与 灾 备 管理 





实 , 可 把 这 些 等 级 RAID 统称 为 RAID X0 等 级 ,X 可 为 标准 RAID 等 级 ,甚至 组 合 等 级 (如 
RAID100)。 利 用 多 层 RAID 配置 .充分 利用 RAID X 与 RAID0 的 优点 ,从 而 获得 在 存储 容 
量 、 数 据 安全 性 和 1/O 负载 均衡 等 方面 性 能 的 大 幅 提 升 。 


RAIDO 




















二 
区 到 A 

Disk 0 Disk 2 Disk 3 Disk 4 Disk 5 Disk 6 Disk 7 Disk 8 

120GB 120GB 120GB 120GB 120GB 120GB 120GB 120GB 


4-11 典型 的 RAID50 模型 











RAIDO 
| Cp | 
Lp Lp, | LDn | 
Disk0 Diskl Disk2 Disk3 Disk4 Disks Disk6 Disk7 


图 4-12 典型 的 RAID60 模型 


4.2.9 非 标准 RAID 等 级 


虽然 标准 RAID 和 组 合 RAID 在 具体 实现 上 存在 一 定 程 度 的 不 同 , 但 与 标准 规范 是 保 
持 一 致 或 兼容 的 。 然 而 除 此 之 外 ,一 些 存储 厂商 还 实现 了 非 标准 的 RAID 等 级 ,往往 都 是 公 
司 私有 的 产品 。 这 里 简单 介绍 几 个 非 标准 RAID 等 级 。 

1. RAID7 

RAID7 全 称 叫 Optimized Asynchrony for High 1/O Rates as well as high Data Transfer 
Rates( 最 优化 的 异步 高 1/O 速率 和 高 数据 传输 率 ), 它 与 以 前 我 们 见 到 RAID 级 别 具 有 明显 
的 区 别 。RAID 7 完全 可 以 理解 为 一 个 独立 存储 计算 机 , 它 自身 带 有 操作 系统 和 管理 工具 ， 
完全 可 以 独立 运行 。 

RAID7 等 级 是 至 今 为 止 理论 上 性 能 最 高 的 RAID 模式 ,因为 它 从 组 建 方式 上 就 已 经 和 
以 往 的 方式 有 了 重大 的 不 同 。 你 会 发 现在 ,以 往 一 个 硬盘 是 一 个 组 成 阵列 的 “柱子 ”, 而 在 
RAID7 中 ,多 个 硬盘 组 成 一 个 “柱子 ”, 它 们 都 有 各 自 的 通道 ,也 正 因为 如 此 ,你 可 以 把 这 个 
图 分 解 成 一 个 个 硬盘 连接 在 主 通道 上 ,只 是 比 以 前 的 等 级 划分 更 细致 了 。 这 样 做 的 好 处 就 
是 在 读 / 写 某 一 区 域 的 数据 时 ,可 以 迅速 定位 ,而 不 会 因为 以 往 因 单 个 硬盘 的 限制 同一 时 间 
只 能 访问 该 数据 区 的 一 部 分 ,在 RAID7 中 ,以 前 的 单个 硬盘 相当 于 分 割 成 多 个 独立 的 硬盘 ， 
有 自己 的 读 写 通道 ,效率 也 就 不 言 自明 了 。 
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RAID7 不 仅仅 是 一 种 技术 ,还 是 一 种 存储 计算 机 (Storage Computer) 。RAID7 存储 计 
算 机 操作 系统 (Storage Computer Operating System) 是 一 套 实时 事件 驱动 操作 系统 ,主要 
用 来 进行 系统 初始 化 和 安排 RAID7 磁盘 阵列 的 所 有 数据 传输 ,并 把 它们 转换 到 相应 的 物理 
存储 驱动 器 上 。 通 过 自身 系统 中 的 阵列 电脑 板 来 设 定 和 控制 读 写 速度 ,存储 计算 机 操作 系 
统 可 使 主机 I/O 传递 性 能 达到 最 佳 。 如 果 一 个 磁盘 出 现 故障 ,还 可 自动 执行 恢复 操作 ,并 
可 管理 备份 磁盘 的 重建 过 程 ,如 图 4-13 所 示 。 
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图 4-13 ”RAID7 结构 示意 图 


RAID7 突破 了 以 往 RAID 标准 的 技术 架构 ,采用 了 非 同步 访问 , 极 大 地 减轻 了 写 数 据 
的 瓶颈 ,提高 了 IVO 速度 。 所 谓 非 同步 访问 , 即 RAID7 的 每 个 1O 接口 都 有 一 条 专用 的 高 
速 通道 ,作为 数据 或 控制 信息 的 流通 路 径 ,因此 可 独立 地 控制 自身 系统 中 每 个 磁盘 的 数据 存 
取 。 如 果 RAID7 有 N 个 磁盘 ,那么 除去 一 个 校 验 盘 (用 作 完 余 计算 ) 外 ,可 同时 处 理 N 一 1 
个 主机 系统 随机 发 出 的 读 / 写 指令 ,从 而 显著 地 改善 了 1/O 应 用 。RAID7 系统 内 置 实时 操 
作 系 统 还 可 自动 对 主机 发 送 过 来 的 读 / 写 指 令 进行 优化 处 理 , 以 智能 化 方式 将 可 能 被 读 取 的 
数据 预先 读 和 快速 缓存 中 ,从 而 大 大 减少 了 磁头 的 转动 次 数 ,提高 了 I/O 速度 。RAID7 可 
帮助 用 户 有 效 地 管理 日 益 庞大 的 数据 存储 系统 ,并 使 系统 的 运行 效率 提高 至 少 一 倍 以 上 , 满 
足 了 各 类 用 户 的 不 同 需求 。 

下 面 介绍 RAID7 的 特点 。 

RAID7 可 完全 独立 于 主机 运行 ,不 占用 主机 CPU 资源 。 

RAID7 是 一 套 实时 事件 驱动 操作 系统 ,主要 用 来 进行 系统 初始 化 和 安排 RAID7 磁盘 
阵列 的 所 有 数据 传输 ,并 把 它们 转换 到 相应 的 物理 存储 驱动 器 上 。 通 过 存储 计算 机 操作 系 
统 来 设 定 和 控制 读 写 速度 ,可 使 主机 1/O 传递 性 能 达到 最 佳 。 如 果 一 个 磁盘 出 现 故障 ,还 
可 自动 执行 恢复 操作 ,并 可 管理 备份 磁盘 的 重建 过 程 。 

RAID7 已 经 被 Storage Computer Corporation 注册 了 商标 ,下 面 就 让 我 们 作 一 下 总 结 。 

(1) 优点 

O@ 全 面 写 入 的 性 能 领先 其 他 硬盘 性 能 25% 一 90%% 并 且 强 于 其 他 阵列 1.5~6 倍 。 

加 主机 接口 通过 可 升级 的 连通 性 来 增加 传输 带宽 。 

@ 在 小 规模 用 户 读 取 操 作 时 ,Cache 的 命中 率 极 高 ,几乎 可 以 将 寻 址 时 间 变 相 降 低 

@ 阵列 中 的 磁盘 数量 越 多 , 写 人 效率 提高 越 大 , 读 取 时 寻 址 时 间 越 短 。 

句 没有 额外 的 带宽 用 于 效 验 操作 。 
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(2) 缺点 

很 可 能 造成 一 个 卖主 一 个 方案 的 局 面 。 

@ 存储 容量 中 ,每 MB 成 本 极 高 。 

@ 相对 而 言 ,非常 短 的 保修 期 。 

@ 大 多 数 用 户 可 能 都 用 不 到 。 

回 必须 要 有 UPS 的 配合 以 保证 意外 断 电 时 Cache 中 的 数据 顺利 保存 。 

然而 ,RAID7 的 设计 与 相应 的 组 成 规模 注定 了 它 是 一 揽 子 承包 计划 。 和 总体 上 说 ， 
RAID7 是 一 个 整体 的 系统 ,RAID7 的 设计 与 相应 的 组 成 规模 注定 了 它 是 一 揽 子 承包 计划 。 
总 体 上 说 ,RAID7 是 一 个 整体 的 系统 ,有 自己 的 操作 系统 ,有 自己 的 处 理 器 ,有 自己 的 总 线 ， 
而 不 是 通过 简单 的 插 卡 就 可 以 实现 的 。 归 纳 起 来 ,RAID7 的 主要 特性 如 下 。 

(1) 所 有 的 1/O 传输 都 是 异步 的 ,因为 它 有 自己 独立 的 控制 器 和 带 有 Cache 的 接口 ,与 
系统 时 钟 并 不 同步 。 

(2) 所 有 的 读 与 写 的 操作 都 将 通过 一 个 带 有 中 心 Cache 的 高 速 系统 总 线 , 我 们 称 之 为 
X-Bus 。 

(3) 专用 的 校 验 硬盘 可 以 用 于 任何 通道 。 

带 有 完整 功能 的 即时 操作 系统 内 嵌 于 阵列 控制 微 处 理 器 中 ,这 是 RAID7 的 心脏 , 它 负 
责 各 通道 的 通信 以 及 Cache 的 管理 ,这 也 是 它 与 其 他 等 级 最 大 的 不 同 之 处 。 

2. RAID-DP 

按照 SNIA 最 新 的 RAID6 定义 ,双重 数据 校 验 的 磁盘 阵列 都 可 归 为 RAID6 等 级 。 
NetApp 公司 按照 RAID6 的 定义 实现 了 RAID-DP, 使 用 双重 的 数据 校 验 来 保护 数据 ,可 以 
保证 两 块 磁盘 同时 损坏 的 情况 下 不 发 生 数据 丢失 。 与 该 公司 的 RAID4 实现 对 比 ,传统 的 
RAID6 实现 会 致使 系统 性 能 损失 30% 左 右 ,而 RAID-DP 的 性 能 下 降低 于 2%。 上 层 文件 
系统 的 请 求 首先 写 入 后 端的 NVRAM 中 ,确保 即使 在 掉 电 的 情况 下 也 不 会 有 任何 数据 丢 
失 。 因 此 ,数据 块 不 会 立即 更 新 。 当 执行 新 来 的 写 操作 ,会 对 写 操作 进行 聚集 ,然后 存储 控 
制 器 尝试 一 次 性 写 入 包括 校 验 数据 在 内 的 整个 数据 条 带 。RAID-DP 提供 了 比 RAID10 更 
好 的 数据 保护 ,性 能 却 不 低 于 RAID10。 对 于 相同 大 小 的 RAID 组 ,在 大 多 数 情 况 下 ,RAID-DP 
没有 受到 传统 RAID6 即时 更 新 数据 块 的 挑战 ,并 提供 更 多 的 磁盘 进行 读 写 。 它 甚至 允许 磁 
盘 固 件 实时 更 新 而 不 发 生 任何 中 断 。 

3. RAID1.5 

这 是 HighPoint 公司 的 RAID 产品 ,有 时 也 被 错误 地 称 为 RAID1. 5。RAID1. 5 仅 使 用 
两 个 磁盘 驱动 器 同时 进行 数据 条 带 化 和 镜像 ,数据 可 以 同时 从 两 块 磁盘 进行 读 取 。 这 其 中 
的 大 部 分 工作 都 由 硬件 来 完成 ,而 非 驱 动 程序 。Linux、Solaris 等 操作 系统 实现 的 RAID1 
也 可 以 实现 同时 从 两 块 磁盘 进行 读 取 数 据 ,因此 RAID1. 5 并 不 优 于 传统 的 RAID1。 

4. RAID5E、RAIDSEE 和 RAID6E 

这 种 概念 首次 在 IBMServer RAID 中 被 提出 ,E 是 Enhanced 的 首 字母 。 它 们 分 别 是 对 
RAID5 和 RAID6 的 增强 ,增加 了 热 元 余 磁盘 驱动 器 ,元 余 磁盘 与 其 他 磁盘 一 起 进行 数据 块 
编排 。 这 种 设计 使 得 MO 可 以 分 散 到 包括 热 宛 余 在 内 的 所 在 磁盘 ,从 而 减 小 单 块 磁盘 的 
WO 带宽 ,提供 更 高 的 性 能 。 然 而 , 热 元 余 磁 盘 不 能 够 被 多 个 阵列 共享 。 

在 实现 中 ,实际 上 不 存在 专用 的 热 元 余 磁 盘 , 就 像 RAID5 和 RAID6 中 没有 专用 的 校 验 
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磁盘 一 样 ,所 有 的 元 余数 据 块 分 布 在 成 员 磁 盘 中 。 例 如 ,一 个 有 10 块 磁盘 的 RAID5E ,包括 
80% 数 据 块 .10% 的 元 余数 据 块 和 10% 的 校 验 数据 。 对 于 RAID5E 和 RAID6E, 宛 余数 据 
块 位 于 阵列 尾部 ,而 RAID5EE 则 分 布 在 整个 RAID 中 。 如 果 RAID5E/5EE 中 发 生 一 块 磁 
盘 损 坏 , 则 系统 会 自动 降级 并 重建 至 标准 的 RAID5。 这 一 过 程 中 ,I/O 操作 非常 密集 ,并 且 
需要 花费 大 量 时 间 ,为 几 个 小 时 甚至 几 天 ,根据 阵列 的 具体 配置 而 异 。 当 损坏 磁盘 被 替换 
后 ,系统 则 又 会 自动 升级 并 重建 至 原先 的 RAID5E/5EE, 同 时 非常 耗 时 。 在 上 面 的 重建 过 
程 中 ,数据 没有 完 余 保护 。 由 于 系统 升级 和 降级 时 1/O 活动 密集 且 所 需 时 间 过 长 ,因此 实 
际 应 用 中 成 员 磁盘 数据 限制 在 4 一 8 块 。 一 旦 超过 8 块 磁盘 ,由 于 损坏 磁盘 的 重建 耗 时 和 重 
建 中 发 生 第 二 块 磁盘 损坏 造成 的 数据 丢失 ,RAID5E/5EE 所 获得 的 性 能 提升 和 其 他 获 益 都 
将 严重 降低 。 

5. RAID S(Parity RAID) 

RAID S 是 EMC 公司 的 Symmetrix 存储 系统 所 使 用 的 条 带 化 校 验 RAID。 该 系统 中 ， 
每 个 卷 位 于 单独 的 物理 磁盘 上 ,多 个 卷 组 合 进行 数据 校 验 。EMC 最 早 引 入 了 RAID S 概 
念 , 后 来 改名 为 Parity RAID 并 应 用 于 Symmetrix DMX 平台 。EMC 现在 也 为 Symmetrix 
DMX 提供 标准 的 RAID5,RAID S 已 经 不 再 EMC 产品 中 使 用 。 

6. Intel Matrix RAID 

Matrix RAID 是 Intel ICH6R 和 后 继 的 南 桥 芯片 的 一 个 重要 特征 ,可 以 通过 RAID 
BIOS 进行 访问 。 它 使 用 两 块 磁盘 或 者 控制 器 能 支持 的 最 多 磁盘 , 它 的 显著 特征 是 允许 
RAID0O、RAID1、RAID5、RAID10 多 种 数据 卷 混合 共存 ,每 块 磁盘 的 指定 部 分 分 配给 相应 的 
RAID 卷 。Matrix RAID 主要 用 于 改善 性 能 和 数据 完整 性 ,实际 应 用 中 可 以 将 操作 系统 应 
用 于 小 的 RAID0, 而 大 的 RAID1 存储 关键 数据 以 及 用 户 数据 。 海 量 的 流 媒 体 数 据 容 易 发 
生 数 据 丢失 ,可 以 考虑 使 用 这 种 RAID。Linux 的 MD RAID 也 可 以 实现 类 似 的 功能 。 

7. Linux MD RAID 10 

RAID 10 是 Linux 内 核 所 支持 的 软 RAID 等 级 之 一 , 它 还 支持 RAID0 一 RAID6 等 级 
别 。 软 RAID 驱动 程序 通常 通过 构造 典型 的 RAID1 十 0 阵 开 来 实现 RAID10,2.6.9 以 后 的 
内 核 也 可 作为 单独 的 级 别 来 实现 。 

MD RAID10 支持 重复 数据 块 的 近 布 局 和 远 布局 两 种 模式 。 近 布局 与 标准 RAID10 相 
同 ,镜像 数据 块 相 邻 存储 。 对 于 n 重 镜 像 的 路 条 带 , 不 要 求 为 n 的 整 倍数 。 两 重 镜像 的 
2、3、4 路 条 带 的 MD RAID10 分 布 相当 于 RAID1、RAID-1E 和 RAID10。 远 布局 模式 下 ,所 
有 磁盘 被 划分 为 /(f = 镜像 数 ) 个 数据 存储 区 ,重复 数据 块 相对 于 原始 数据 块 具有 一 个 磁盘 
和 若干 依 偏 移 的 距离 , 即 保存 在 下 一 个 磁盘 对 应 存储 区 的 偏 移 位 置 。 这 种 设计 能 够 提高 镜 
像 阵列 的 条 带 性 能 .有 效 提高 顺序 和 随机 读 性 能 .但 对 写 性 能 没有 显著 提升 。 许 多 应 该 通常 
具有 读 密 集 而 写 稀 朴 的 特点 ,RAID10 适合 此 类 数据 应 用 。 需 要 指出 的 是 , 近 布 局 和 远 布局 
两 种 模式 可 以 同时 使 用 ,这 种 情况 下 将 有 nXf 个 数据 副本 。 

8. IBM Server RAID 1E 

IBM 公司 的 Server RAID 阵列 卡 系列 支持 任意 数量 驱动 器 上 的 两 路 镜像 ,多 个 磁盘 对 
数据 块 进行 轮转 镜像 。 这 种 配置 能 够 对 不 相 邻 磁盘 驱动 器 发 生 的 损坏 进行 容错 ,其 他 的 存 
储 系统 也 支持 这 种 模式 ,比如 SUN 公司 的 StorEdge T3。 
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9. RAID-K 

Kaleidescape 公司 实现 了 一 种 称 为 RAID-K[16] 的 RAID 类 型 。RAID-K 与 RAID4 相 
似 ,但 不 对 文件 数据 进行 块 级 的 条 带 化 处 理 , 它 企图 将 整个 电影 或 音乐 集合 完整 地 存储 在 单 
个 磁盘 上 。 另 外 , 它 的 元 余 校 验 信息 可 存储 在 多 个 磁盘 上 ,从 而 适应 由 多 个 容量 不 同 的 磁盘 
所 组 成 的 逻辑 磁盘 。 而 且 ,元 余数 据 包 含 比 校 验 信息 更 多 的 数据 ,用 于 获取 更 高 的 容错 性 。 
这 些 特征 可 以 为 影像 音乐 提供 更 好 的 性 能 ,增加 数据 存储 的 安全 性 。RAID-K 还 可 以 允许 
用 户 以 增 量 方式 扩充 存储 容量 ,能 够 增加 容量 更 大 的 磁盘 ,其 至 它 还 可 以 增加 包含 数据 ( 仅 
限 影像 和 音乐 ) 的 磁盘 。RAID-K 会 自动 把 这 些 磁盘 组 建成 RAID-K 阵列 和 Kaleidescape 
文件 系统 。 

10. RAID-Z 

RAID-Z 是 集成 在 SUN 公司 ZFS 文件 系统 中 的 一 种 与 RAID5 相似 的 RAID 模式 。 利 
用 写 时 复制 策略 ,RAID-Z 避免 了 了 RAID5 的 写 操作 困境 ( 即 更 新 数据 同时 需要 更 新 校 验 数 
据 ), 它 不 用 新 数据 覆盖 旧 数 据 , 而 是 把 新 数据 写 到 新 位 置 并 自动 更 新 数据 指针 。 对 于 小 的 
写 操作 ,仅仅 执行 完全 的 写 条 带 操作 ,有 效 避 免 “ 读 取 一 更 改 一 写 回 ”的 操作 需求 。 另 外 ,还 
可 以 直接 对 小 写 操作 使 用 镜像 替换 校 验 进行 保护 ,因为 文件 系统 了 解 下 层 存储 结构 ,可 以 在 
必要 时 分 配额 外 存储 空间 。ZFS 还 实现 了 RAID-Z2 ,提供 类 似 于 RAID6 的 双重 校 验 保 护 
能 力 ,可 以 保证 磁盘 发 生 损坏 时 不 发 生 数 据 丢 失 。 后 来 ZFS 加 入 了 三 重 校 验 RAID 支持 ， 
或 许 称 为 RAID-Z3 。 


4.2.10 ”RAID 的 实现 方式 


通常 计算 机 功能 既 可 以 由 硬件 来 实现 ,也 可 以 由 软件 来 实现 。 对 于 RAID 系统 而 言 , 自 
然 也 不 例外 , 它 可 以 采用 软件 方式 实现 ,也 可 以 采用 硬件 方式 实现 ,或 者 采用 软 硬 结合 的 方 
式 实现 。 

1. 软 RAID 

软 RAID 没有 专用 的 控制 芯片 和 LIVO 芯片 ,完全 由 操作 系统 和 CPU 来 实现 RAID 的 功 
能 。 现 代 操 作 系 统 基 本 上 都 提供 对 软 RAID 的 支持 ,通过 在 磁盘 设备 驱动 程序 上 添加 一 个 
软件 层 , 提 供 一 个 物理 驱动 器 与 逻辑 驱动 器 之 间 的 抽象 层 。 目 前 ,操作 系统 支持 的 最 常见 的 
RAID 等 级 有 RAIDO、RAID1、RAID10、RAID01 和 RAID5 等 。 比 如 , Windows Server 支 
持 RAIDO、RAID1 和 RAID5 三 种 等 级 , Linux 支持 RAIDO、RAID1、 RAID4、RAID5、 
RAID6 等 ,Mac OS X Server、FreeBSD、NetBSD、OpenBSD、Solaris 等 操作 系统 也 都 支持 相 
应 的 RAID 等 级 。 

软 RAID 的 配置 管理 和 数据 恢复 都 比较 简单 .但 是 RAID 所 有 任务 的 处 理 完全 由 CPU 
来 完成 ,如 计算 校 验 值 ,所 以 执行 效率 比较 低下 ,这 种 方式 需要 消耗 大 量 的 运算 资源 ,支持 的 
RAID 模式 较 少 ,很 难 广泛 应 用 。 

软 RAID 由 操作 系统 来 实现 ,因此 系统 所 在 分 区 不 能 作为 RAID 的 逻辑 成 员 磁 盘 , 软 
RAID 不 能 保护 系统 盘 D。 对 于 部 分 操作 系统 而 言 ,RAID 的 配置 信息 保存 在 系统 信息 中 ， 
而 不 是 单独 以 文件 形式 保存 在 磁盘 上 。 这 样 当 系 统 意外 崩溃 而 需要 重新 安装 时 ,RAID 信 
息 就 会 丢失 。 另 外 ,磁盘 的 容错 技术 并 不 等 于 完全 支持 在 线 更 换 、 热 持 拔 或 热 交 换 , 能 否 支 
持 错误 磁盘 的 热 交换 与 操作 系统 的 实现 相关 ,有 的 操作 系统 热 交换 。 
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2. 硬 RAID 

硬 RAID 拥 有 自己 的 RAID 控制 处 理 与 VO 处理 芯片 ,甚至 还 有 阵列 缓冲 ,对 CPU 的 
占用 率 和 整体 性 能 是 三 类 实现 中 最 优 的 ,但 实现 成 本 也 最 高 的 。 硬 RAID 通常 都 支持 热 交 
换 技术 ,在 系统 运行 下 更 换 故障 磁盘 。 

硬 RAID 包含 RAID 卡 和 主板 上 集成 的 RAID 芯片 ,服务 器 平台 多 采用 RAID 卡 。 
RAID 卡 由 RAID 核心 处 理 芯 片 (RAID 卡 上 的 CPU)、 端 口 .缓存 和 电池 4 部 分 组 成 。 其 
中 ,端口 是 指 RAID 卡 支持 的 磁盘 接口 类 型 ,如 IDE/ATA、SCSI、SATA、SAS.FC 等 接口 。 

3. 软 硬 混合 RAID 

软 RAID 性 能 欠 佳 ,而 且 不 能 保护 系统 分 区 ,因此 很 难 应 用 于 桌面 系统 。 而 硬 RAID 成 
本 非常 昂贵 ,不 同 RAID 相互 独立 ,不 具有 互 操作 性 。 因 此 ,人 们 采取 软件 与 硬件 结合 的 方 
式 来 实现 RAID, 从 而 获得 在 性 能 和 成 本 上 的 一 个 折 中 , 即 较 高 的 性 价 比 。 

这 种 RAID 虽然 采用 了 处 理 控制 芯片 ,但 是 为 了 节省 成 本 ,芯片 往往 比较 廉价 且 处 理 能 
力 较 弱 ,RAID 的 任务 处 理 大 部 分 还 是 通过 固件 驱动 程序 的 CPU 来 完成 。 


4.3 RAID 的 应 用 选择 


RAID 等 级 的 选择 主要 有 三 个 因素 , 即 数据 可 用 性 .IO 性 能 和 成 本 。 目 前 ,在 实际 应 
用 中 常见 的 主流 RAID 等 级 是 RAID0, RAID1, RAID3, RAID5, RAID6, RAID01 和 
RAID10, 它 们 之 间 的 技术 对 比 情况 如 表 4-1 所 示 。 如 果 不 要 求 可 用 性 ,可 选择 RAIDO 以 获 
得 高 性 能 。 如 果 可 用 性 和 性 能 是 重要 的 ,而 成 本 不 是 一 个 主要 因素 , 则 根据 磁盘 数量 选择 
RAID1。 如 果 可 用 性 成 本 和 性 能 都 同样 重要 , 则 根据 一 般 的 数据 传输 和 磁盘 数量 选择 
RAID3 或 RAID5。 在 实际 应 用 中 ,应 当 根 据 用 户 的 数据 应 用 特点 和 具体 情况 ,综合 考虑 可 
用 性 ,性 能 和 成 本 来 选择 合适 的 RAID 等 级 。 

表 4-1 主流 RAID 等 级 技术 对 比 





























”RAID 等 级 | RAID | RAIDL |[ RAID3 | RAIDs | RAID6 | RADIO 
别名 条 带 | 镜像 。 | 宝生 二 介 | 分 机 人 | 下 下 刘 偶 | 镜像 加 条 各 

容错 性 无 有 有 有 有 有 
元 余 类 型 无 有 有 有 有 有 
热 备份 选择 无 有 有 有 有 有 
读 性 能 高 低 高 高 高 高 
随机 写 性 能 高 低 低 一 般 低 一 般 
连续 写 性 能 高 低 低 低 低 一 般 
需要 磁盘 数 n>1 2n(n>1) n>3 n>3 n>4 2n(n>2)>4 
可 用 容量 全 部 50% Cn—D/n (n—D/n (n—2)/n 50% 


























近年 来 ,企业 的 信息 化 水 平 不 断 发 展 ,数据 已 经 取代 计算 成 为 信息 计算 的 中 心 ,信息 数 
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据 的 安全 性 就 显得 至 关 重 要 。 随 着 存储 技术 的 持续 发 展 .RAID 技术 在 成 本 、 性 能 、 数 据 安 
全 性 等 诸多 方面 都 将 优 于 其 他 存储 技术 ,例如 磁带 库 、 光 盘 库 等 ,大 多 数 企业 数据 中 心 首选 
RAID 作为 存储 系统 。 

不 同 的 存储 厂商 的 产品 在 技术 、 成 本 、 性 能 管理、 服务 等 方面 各 有 优势 和 不 足 。 用 户 选 
择 RAID 的 原则 是 : 在 成 本 预算 内 满足 数据 存储 需求 的 前 提 下 ,选择 最 优 的 存储 厂商 解决 
方案 。 因 此 ,首先 用 户 需 要 对 存储 需求 作 深入 的 调研 和 分 析 , 并 给 出 成 本 预算 ,然后 对 众多 
存储 厂商 的 解决 方案 进行 分 析 和 对 比 ,最 后 选择 出 一 个 综合 最 优 的 存储 方案 。 其 中 ,存储 产 
品 的 扩展 性 和 存储 三 家 的 售后 服务 需要 重点 考察 ,存储 需求 (如 容量 .性 能 ) 可 能 会 不 断 升 
级 ,存储 产品 发 生 故 障 后 的 维修 和 支持 保障 ,这 些 都 要 未 雨 绸 缪 。 





任务 拓展 


. 为 什么 RAIDI1 不 能 替代 备份 ? 

. 调研 RAID6 及 其 第 二 校 验 位 的 计算 。 

. 在 备份 应 用 中 采用 RAID3 有 哪些 优势 ? 

. 讨论 不 同 RAID 配置 对 随机 和 顺序 W/O 的 影响 。 


二 
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第 5 章 虚拟 磁带 库 技术 


(人 任务 目标 
。 了 解 什么 是 虚拟 磁带 库 ; 
。 了 解 虚拟 带 库 的 优 缺 点 ; 
。 了 解 虚拟 带 库 的 各 种 技术 ; 
。 了 解 重复 数据 删除 技术 。 


(> 商 昌 站 景 


在 虚拟 磁带 库 出 现 以 前 ,备份 软件 常用 的 备份 介质 是 磁带 库 , 其 以 低廉 的 成 本 占据 了 绝 
大 多 数 的 备份 介质 市 场 。 但 其 机 械 架构 产生 的 大 量 故 障 和 顺序 读 写 特性 大 大 限制 了 读 性 
能 ,这 使 得 人 们 不 断 地 寻找 替代 方案 。 

随 着 技术 的 进步 ,硬盘 的 成 本 越 来 越 低 ,使 用 硬盘 代 蔡 磁带 成 为 可 能 ,虚拟 磁带 库 在 此 
时 产生 。 首 先 , 硬 盘 的 随机 读 写 特性 使 得 其 读 性 能 大 大 超过 磁带 。 其 次 ,电子 电路 架构 对 比 
机 械 架构 ,故障 率 也 大 大 减 小 。 

当然 ,虚拟 磁带 库 和 磁带 库 的 差别 并 不 仅 限于 此 ,本 章 会 对 两 者 进行 进一步 的 对 比 
介绍 。 

现在 行业 上 总 有 虚拟 磁带 库 终 将 蔡 代 磁 带 库 的 声音 存在 ,虽然 笔者 对 此 并 不 认同 ,但 不 
可 否认 ,虚拟 磁带 库 在 大 量 场景 中 对 比 磁带 库 是 占据 优势 的 ,而 且 虚 拟 磁带 库 的 市 场 占有 率 
也 确实 在 不 断 增长 中 。 


(用 
Ne 项 目 描 述 

聚 比特 科技 有 限 公 司机 房 发 生 了 一 次 重大 事故 ,由 于 计算 机 病毒 感染 ,导致 机 房 部 分 服 
务 器 数据 大 量 丢失 ,给 公司 造成 了 巨大 的 影响 。 为 此 ,公司 领导 召集 各 部 门 紧 急 开会 ,会 中 
针对 技术 部 门 ,公司 领导 要 求 尽快 建立 灾 备 系统 解决 方案 ,用 来 应 对 未 来 类 似 数据 和 应 用 的 
安全 隐患 。 


(加 项目 分 析 

聚 比特 科技 有 限 公 司 技术 部 接 到 建立 备份 系统 的 任务 , 即 开始 着 手 准备 。 首 先是 确定 
备份 数据 存放 在 哪里 ,也 就 是 采用 什么 样 的 备份 介质 。 通 过 了 解 比 对 ,大 体 选 择 了 三 种 备 选 
的 备份 介质 : 四 磁盘 阵列 ; 加 磁带 库 ; 四 虚拟 磁带 库 。 

磁盘 阵列 要 被 使 用 ,需要 将 其 格式 化 成 与 使 用 它 的 操作 系统 兼容 的 文件 系统 ,经历 过 这 
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次 病毒 事件 ,技术 部 认为 业务 系统 存储 和 备份 介质 采用 同一 文件 系统 仍然 无 法 避免 数据 被 
同时 破坏 的 风险 ,所 以 此 方案 暂 不 采用 。 

磁带 库 作 为 备份 行业 中 长 期 使 用 的 大 型 备份 介质 ,在 安全 性 上 没有 问题 ,但 其 机 械 架 构 
故障 率 较 高 ,后 期 维护 困难 ,同时 也 考虑 到 需要 进行 数据 恢复 时 用 时 较 长 ,所 以 同样 被 排除 
在 外 。 

虚拟 磁带 库 同时 兼 具 磁带 库 的 安全 性 和 磁盘 阵列 的 高 速 性 ,同时 故障 率 较 磁 带 库 要 更 
低 , 更 符合 聚 比特 科技 有 限 公 司 现在 的 需要 。 

所 以 技术 部 门 正式 决定 采用 虚拟 磁带 库 作为 公司 备份 系统 的 存储 介质 。 


(@ 项 突现 


技术 部 门 在 决定 采用 虚拟 磁带 库 后 ,立即 着 手 虚拟 磁带 库 的 选择 ,发 现 虚拟 磁带 库 也 有 
各 种 实现 方式 和 附加 功能 ,为 此 ,技术 部 对 主流 虚拟 磁带 库 进 行 了 一 次 全 方位 的 了 解 。 








5.1 虚拟 磁带 库 介 绍 及 相关 产品 对 比 


虚拟 磁带 库 又 称 为 VTL, 是 备份 软件 的 磁带 驱动 或 磁带 库 , 其 本 质 是 一 个 硬盘 阵列 。 
因此 它 能 以 磁盘 速度 而 不 是 原来 缓慢 的 磁带 速度 备份 和 恢复 会 话 。 尤 其 吸引 眼球 的 是 , 借 
助 VTL 恢复 操作 可 以 直接 针对 某 个 文件 进行 ,而 无 须 按部就班 地 读 取 整 个 磁带 ,因为 硬盘 
是 随机 访问 设备 。 

虚拟 磁带 库 是 一 种 企业 级 的 数据 存储 系统 , 它 可 以 把 基于 阵列 的 受 RAID 保护 的 硬盘 
驱动 器 模拟 成 物理 的 磁带 驱动 器 ,并 且 将 数据 备份 到 其 中 。 使 用 虚拟 磁带 库 时 ,备份 软件 的 
架构 和 过 程 跟 真实 的 带 库 没 有 很 大 区 别 。 虚 拟 磁带 库 工 作 原 理 跟 磁带 一 样 , 只 是 写 数据 时 ， 
把 磁盘 模拟 成 磁带 。 由 于 虚拟 磁带 库 可 以 模拟 磁带 存储 系统 ,任何 规模 的 企业 都 可 以 很 方 
便 地 在 其 系统 中 使 用 硬盘 模拟 生成 的 虚拟 磁带 库 了 。 

VTL 具有 两 大 优点 : 管理 方便 ,性 能 良好 。 实 现 磁盘 到 磁盘 直接 备份 需要 标准 共享 磁 
盘 阵 列 的 所 有 配置 步骤 。 相 比 之 下 ,如果 你 告诉 VTL 应 该 模拟 多 少 虚 拟 磁带 驱动 器 、 多 少 
虚拟 盒 式 磁带 ,VTL 软件 就 能 自动 实现 配置 ,为 虚拟 磁带 合理 分 配 磁盘 数 。 我 们 就 来 深入 
了 解 虚拟 磁带 库 的 组 成 及 利 头 。 


5.1.1 架构 


在 考虑 VTL 的 优势 之 前 ,你 需要 回答 以 下 问题 : 

(1) VTL 的 扩展 性 怎么 样 ? 能 否 满足 更 高 的 连接 需求 和 容量 需求 ? 

(2) VTL 具备 哪些 管理 功能 ?与 备份 软件 的 集成 性 怎么 样 ? 

(3) 压缩 .数据 重复 删除 加密 等 功能 会 对 VTL 的 性 能 和 容量 带 来 哪些 影响 ? 

VTL 有 四 种 部 署 架 构 ,分 别 以 不 同 的 方法 解决 上 述 问题 。 

(1) VTL 存储 产品 。 这 种 VTL 是 一 种 独立 的 产品 ,包括 磁盘 驱动 器 和 控制 器 ,而 
VTL 软件 寄存 在 控制 器 中 。 具 体 实例 包括 Copen、EMC、 Quantum、Network Appliance 
(NetApp) 等 公司 的 产品 。 
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(2) VTL 服务 器 产品 。 专 用 服务 器 与 VTL 软件 同时 加 载 ,而 且 通 过 光纤 通道 (FC) 与 
外 部 磁盘 阵列 相连 。Diligent Technologies、FalconStor 软件 公司 、Maxxan 系统 公司 、 
Neartek、Sun Microsystems 等 公司 分 别提 供 这 种 技术 。 

(3) 基于 网 格 的 架构 。Sepaton 公司 的 S2100-ES2 允许 用 户 给 VTL 添加 服务 器 节点 ， 
扩展 服务 器 ,从 而 满足 性 能 或 FC 端口 引起 的 容量 需求 。 

(4) 基于 磁带 库 的 架构 。ADIC 公司 的 Pathlight VX 系列 产品 .Spectra Logic 公司 的 
Spectra T950 都 允许 用 户 将 数据 存储 在 磁带 库 的 磁带 或 磁盘 介质 中 。 

每 种 架构 都 有 各 自 的 优 缺点 。VTL 存储 产品 很 容易 设置 和 部 署 ;但 是 当 产品 的 性 能 和 
容量 达到 极限 时 ,用 户 需 要 部 署 更 多 的 VTL 产品 ,从 而 带 来 管理 问题 。VTL 服务 器 产品 五 
以 帮助 用 户 扩展 服务 器 ,扩大 容量 ,增强 性 能 ,同时 又 能 利用 不 同 供应 商 的 存储 ;不 过 VTL 
服务 器 产品 也 可 能 成 为 性 能 瓶颈 ,引入 未 经 测试 的 配置 方式 。Sepaton 公司 的 S2100-ES2 
是 基于 网 格 的 VTL 架构 , 当 容量 .连接 ,性 能 等 都 达到 临界 值 时 ,S2100-ES2 能 方便 地 扩展 ， 
但 最 终 还 是 会 和 存储 产品 一 样 再 次 面临 限制 问题 。ADIC 公司 的 Pathlight VX 系列 产品 、 
Spectra Logic 公司 的 Spectra T950 用 一 种 框架 管理 磁盘 和 磁带 ,但 是 会 使 得 由 VTL 创建 
和 导出 的 磁带 的 管理 工作 非常 依赖 于 VTL。 


5.1.2 各 种 VTL 产品 间 的 重要 差异 


购买 虚拟 磁带 库 (VTL) 时 ,首先 要 了 解 各 项 可 用 的 功能 ,这 样 才能 创建 你 所 需 的 功能 
清单 。 将 供应 商 的 功能 与 你 的 需求 一 一 对 应 ,然后 就 能 列举 出 暂 作 考虑 的 产品 。 供 应 商 的 
功能 可 分 为 “必需 的 “最 好 拥有 的 ”以 及 “不 必要 的 "。 如 果 功 能 不 是 “必需 的 ”, 就 不 应 该 影 
响 决策 过 程 , 当 然 还 应 该 考虑 到 价格 因素 。 

1. 主 框架 及 开放 系统 VTL 

选择 VTL 系统 的 首要 标准 应 为 : 你 的 环境 是 需要 主 框架 还 是 开放 系统 的 VTL。 在 主 
框架 和 开放 系统 环境 中 ,VTL 的 使 用 方法 截然 不 同 , 因 此 ,两 种 VTL 的 设计 自然 也 不 同 。 
主 框架 VTL 旨 在 利用 磁盘 存储 ,加 快 磁带 数据 的 访问 速度 。 在 数据 处 理 过 程 中 ,数据 在 磁 
盘 和 物理 磁带 之 间 动 态 迁 移 。 相 反 , 开 放 系统 VTL 通常 不 会 处 理 磁 带 中 的 数据 ;而 是 利用 
磁带 实现 备份 和 归档 。 

主 框架 VTL 的 供应 商 包 括 : Diligent Technologies、IBM、Sun Microsystems 及 其 他 一 
些小 公司 。 过 去 40 年 ,虚拟 存储 技术 渐渐 呈现 。 但 是 ,直到 20 世纪 90 年 代 后 期 ,IBM 和 
StorageTek( 现 属于 Sun 公司 ) 推 出 主 框架 VTL ,虚拟 存储 技术 才 真 正 为 人 所 知 。IBM 和 
Sun/StorageTek 公司 的 主 框架 VTL 系统 在 大 型 的 终端 磁带 库 之 前 ,使 用 了 相对 较 小 的 磁 
盘 缓存 。 

主 框 架 VTL 出 现 几 年 之 后 ,开放 系统 VTL 也 随 之 产生 。 目 前 ,开放 系统 VTL 的 初始 
厂家 有 三 家 FalconStor Software、Quantum 和 Sepaton 公司 ,他 们 再 把 软件 转 给 其 他 供 
应 商 。 这 三 家 厂商 同时 通过 增值 分 销 商 和 零售 商 直 接 或 间接 提供 打包 产品 。 

其 他 一 些 开 放 系 统 供应 商 只 通过 直接 和 间接 渠道 交付 VTL 产品 ,包括 Data Domain、 
Diligent Technologies (被 [BM 收购 ) 和 NetApp 公司 。IBM 和 Sun 公司 均 生 产 主 框架 
VTL, 并 直接 或 通过 渠道 交付 VTL。Diligent 也 拥有 主 框架 VTL, 可 通过 Hitachi Data 
Systems(HDS) 获 得 。 
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2. VTL 的 关键 影响 因素 

在 选择 VTL 时 ,可 扩展 性 是 一 项 重要 的 考虑 因素 ,其 衡量 标准 为 容量 性能、 仿真 引擎 
的 数量 .端口 数 以 及 相关 的 项 目 。 存 储 容量 的 范围 很 广 ,端口 数 和 主机 链 路 也 是 如 此 。 重 复 
数据 删除 技术 对 容量 的 影响 非常 重大 ,可 以 将 系统 的 有 效 容量 或 虚拟 容量 提高 几 倍 。 

仿真 引擎 或 数据 迁移 器 的 数量 可 为 1 一 8 个 .有 时 候 甚 至 达到 16 个 。 但 是 ,大 型 的 多 引 
人 擎 系统 可 能 无 法 在 多 个 元 素 之 间 实 现 双 主动 故障 转移 功能 ,也 无 法 综合 管理 多 个 系统 。 

重复 数据 删除 技术 是 VTL 最 新 拥有 的 一 项 功能 ,主要 有 两 种 实现 方式 ,各 有 优势 。 重 
复数 据 删除 功 能 可 以 在 线 执行 ,将 数据 流 化 ;也 可 以 在 存储 数据 后 再 加 以 执行 。 在 线 方式 无 
须 为 尚未 删除 的 数据 提供 额外 空间 ,因此 能 提高 空间 利用 效率 。 第 二 种 方式 需要 的 空间 较 
多 ,但 是 吞吐 速率 较 高 。 目 前 的 产品 一 般 都 采用 其 中 的 一 种 方法 ,用 户 在 购买 VTL 时 需 自 
行 选择 。 如 果 你 的 备份 要 求 是 减少 备份 时 间 ,那么 第 二 种 方法 相对 合适 ;如 果 你 的 部 署 要 求 
是 离线 迁移 数据 ,以 通过 VTL 复制 迅速 恢复 灾难 ,或 者 最 重要 的 目标 是 节省 空间 ,那么 在 
线 方式 是 最 好 的 选择 。 

在 概念 上 ,压缩 与 重复 数据 删除 技术 类 似 , 只 是 压缩 技术 出 现 较 早 。 几 乎 所 有 的 供应 商 
都 提供 软件 压缩 功能 以 及 硬件 加 速 功 能 。 通 常 ,软件 压缩 功能 会 减 慢 整个 数据 的 备份 过 程 。 
磁带 驱动 器 种 类 不 同 ,压缩 类 型 也 不 同 。 如 果 VTL 仿真 磁带 驱动 压缩 功能 有 别 于 物理 磁 
带 ,那么 将 虚拟 磁带 输出 到 物理 磁带 就 会 花费 多 盘 磁 带 , 浪 费 磁带 匣 的 空间 ,甚至 发 生 操 作 
故障 。 因 此 ,匹配 虚拟 压缩 算法 和 物理 算法 非常 重要 。 

另外 一 种 方法 是 支持 托管 备份 程序 ,即将 备份 服务 器 嵌入 VTL 产品 中 。 这 种 方法 的 
好 处 在 于 无 须 外 部 1/O 活动 或 备份 主机 ,就 能 对 物理 磁带 复制 过 程 实现 虚拟 化 。 有 了 托管 
程序 ,就 无 须 外 部 SAN 存储 或 备份 主机 活动 ,这 样 就 可 以 避免 与 主 程序 争夺 线路 。 

磁带 缓存 和 支持 外 部 磁带 功能 关系 到 物理 磁带 介质 如 何 与 VTL 产品 实现 集成 。 如 果 
支持 外 部 磁带 ,具有 磁带 驱动 器 的 物理 库 就 能 直接 与 VTL 相连 ,这 样 就 可 以 离线 复制 或 输 
出 物理 磁带 ,或 者 实现 长 期 存储 。 而 磁带 缓存 的 概念 来 源 于 主 框架 VTL 系统 ,是 指数 据 首 
先 流入 VTL, 作 为 缓存 ,随后 继续 流入 附属 的 物理 磁带 。 这 样 ,就 不 必 复 制 或 迁移 数据 到 终 
端 磁带 中 。 相 反 , 当 VTL 磁盘 缓存 充满 后 ,数据 会 自动 流入 磁带 。 

VTL 的 复制 功能 是 一 项 非常 重要 的 功能 ,其 形式 取决 于 VTL 的 利用 方式 。 如 果 客 户 
想 要 替换 磁带 ,并 保持 灾难 恢复 功能 ,那么 VTL 复制 功能 必 不 可 少 。 有 些 环境 利用 VTL 
加 快 备份 和 恢复 过 程 , 但 是 仍然 利用 物理 磁带 实现 离线 灾难 恢复 ,这 时 就 不 需要 VTL 复制 
功能 。 

相 比 预先 配置 的 产品 ,客户 定制 的 VTL 方案 能 更 好 地 满足 特定 数据 中 心 的 VTL 需 
求 。 利 用 定制 的 VTL 方案 ,客户 可 以 更 加 灵活 地 部 署 与 主 供应 商 具 有 相同 VTL 功能 的 系 
统 。 系 统 集成 商 、 增 值 分 销 商 等 能 提供 为 客户 定制 的 VTL 解决 方案 ,满足 客户 独一无二 的 
需求 。 存 在 许多 VTL 产品 .VTL 代理 商 、 增 值 分 销 商 可 供 选 择 , 不 过 与 VTL 技术 的 选择 
范围 相同 。 

了 解 各 种 可 选 产品 和 注意 事项 后 .我 们 就 能 编制 一 份 比较 清单 ,列举 你 的 具体 需求 
以 及 几 家 供应 商 的 产品 。 这 么 做 有 助 于 评估 VTL 产品 间 的 重要 差异 ,找到 最 适合 的 解 
决 方案 。 
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5.1.3 虚拟 人 磁 带 库 和 磁带 库 的 对 比 


通常 我 们 把 物理 磁带 库 称 作 磁 带 库 。 广 义 的 磁带 库 产品 包括 自动 加 载 磁带 机 和 磁 
带 库 。 自 动 加 载 磁 带 机 和 磁带 库 实际 上 是 将 磁带 和 磁带 机 有 机 结合 组 成 的 。 自 动 加 
载 磁 带 机 是 一 个 位 于 单机 中 的 磁带 驱动 器 和 自动 磁带 更 换 装置 , 它 可 以 从 装 有 多 盘 磁 
带 的 磁带 匣 中 拾取 磁带 并 放 入 驱动 器 中 ,或 执行 相反 的 过 程 。 它 可 以 备份 100 一 
200GB 或 者 更 多 的 数据 。 自 动 加 载 磁带 机 能 够 支持 例 行 备份 过 程 ,自动 为 每 日 的 备份 
工作 装载 新 的 磁带 。 一 个 拥有 工作 组 服务 器 的 小 公司 或 分 理 处 可 以 使 用 自动 加 载 磁 
带 机 来 自动 完成 备份 工作 。 

磁带 库 是 像 自动 加 载 磁带 机 一 样 的 基于 磁带 的 备份 系统 ,磁带 库 由 多 个 驱动 器 、 多 个 
槽 .机械 手臂 组 成 ,并 可 由 机 械 手 臂 自动 实现 磁带 的 拆卸 和 装填 。 它 能 够 提供 同样 的 基本 自 
动 备份 和 数据 恢复 功能 ,但 同时 具有 更 先进 的 技术 特点 。 它 可 以 多 个 驱动 器 并 行 工作 ,也 可 
以 几 个 驱动 器 指向 不 同 的 服务 器 来 做 备份 ,存储 容量 达到 PB(1PB= 一 百 万 GB) 级 ,可 实现 
连续 备份 .自动 搜索 磁带 等 功能 ,并 可 在 管理 软件 的 支持 下 实现 智能 恢复 、 实 时 监控 和 统计 ， 
是 集中 式 网 络 数 据 备份 的 主要 设备 。 

磁带 库 不 仅 数据 存储 量 大 得 多 ,而 且 在 备份 效率 和 人 工 占 用 方面 拥有 无 可 比拟 的 
优势 。 在 网 络 系统 中 ,磁带 库 通过 SAN(Storage Area Network, 存 储 局 域 网 络 ) 系 统 可 
形成 网 络 存储 系统 ,为 企业 存储 提供 有 力 保障 ,很 容易 完成 远程 数据 访问 、 数 据 存储 备 
份 , 或 通过 磁带 镜像 技术 实现 多 磁带 库 备份 ,无 疑 是 数据 仓库 、ERP 等 大 型 网 络 应 用 的 
良好 存储 设备 。 

1. 数据 读 写 性 能 

(1) 物理 磁带 库 : 物理 磁带 库 的 整体 性 能 由 磁带 驱动 器 数量 及 磁带 驱动 器 支持 的 标准 
决定 。 

(2) 虚拟 磁带 库 : 由 于 采用 虚拟 化 技术 ,虽然 备份 软件 会 发 现 虚 拟 磁带 库 中 有 若干 磁 
带 机 ,但 是 执行 备份 或 者 数据 恢复 的 时 候 性 能 超过 了 磁带 机 。 因 此 虚拟 磁带 库 的 性 能 不 是 
由 仿真 的 磁带 机 标准 决定 ,而 是 由 控制 系统 和 后 端的 磁盘 系统 决定 。 

2. 数据 可 靠 性 

(1) 物理 磁带 库 : 除非 采用 磁带 Clone 的 方式 ,否则 由 于 磁带 损坏 会 导致 数据 丢失 。 

(2) 虚拟 磁带 库 : 后 端 采用 RAID 技术 .RAID 组 中 的 磁盘 损坏 一 个 不 会 影响 虚拟 磁带 
中 储存 的 数据 ,因此 具有 更 好 的 安全 性 。 

3. 保密 性 

(1) 物理 磁带 库 : 磁带 采用 专用 数据 格式 储存 数据 ,并 且 可 以 将 磁带 移出 磁带 库 异 地 
保存 ,因此 具有 最 高 的 安全 性 。 

(2) 虚拟 磁带 库 : 虚拟 带 库 产 品 有 两 类 .一 类 是 真正 虚拟 磁带 ; 另 一 类 是 用 文件 系统 中 
的 文件 来 储存 磁带 格式 的 文件 。 对 于 第 一 类 产品 ,除了 不 能 出 库 以 外 ,具有 跟 物 理 磁 带 库 同 
样 的 安全 性 ,第 二 类 产品 由 于 存在 文件 系统 ,就 有 可 能 被 病毒 或 进行 人 为 的 破坏 。 

4. 数据 可 恢复 性 

(1) 物理 磁带 库 : 磁带 存储 由 于 磁带 磁粉 脱落 . 黏 连 、 消 磁 、 磁 头 天 等 原因 ,会 在 需要 恢 
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复数 据 时 无 法 获得 数据 ,因此 磁带 的 可 恢复 性 不 会 是 100%。 

(2) 虚拟 磁带 库 : 虚拟 磁带 库 采 用 磁盘 阵列 存储 数据 ,有 RAID 保护 ,因此 可 以 说 虚拟 
磁带 库 具 有 100% 的 数据 可 恢复 性 。 

5. 系统 可 靠 性 

(1) 物理 磁带 库 : 由 于 磁带 库 中 的 大 量 的 机 械 部 件 ,并且 要 求 机 械 运 动 精度 相当 高 ,所 
以 磁带 库 本 身 的 系统 可 靠 性 就 不 会 很 高 。 

(2) 虚拟 磁带 库 : 虚拟 磁带 系统 唯一 有 机 械 部 件 的 就 是 磁盘 ,但 是 采用 了 RAID 方式 
进行 数据 宛 余 存 储 , 因 此 虚拟 磁带 库 比 物理 磁带 库 的 可 靠 性 要 高 很 多 。 

6. 容量 

(1) 物理 磁带 库 : 物理 磁带 库 的 容量 非常 大 。 

(2) 虚拟 磁带 库 : 虚拟 磁带 库 的 容量 受 磁盘 系统 的 容量 限制 ,一 般 最 大 不 过 几 十 TB。 

7. 管理 

(1) 物理 磁带 库 : 物理 磁带 库 基 本 上 都 带 有 图 形 化 管理 界面 ,并 且 通 过 一 个 界面 就 可 
以 管理 整个 磁带 库 系 统 ,包括 机 械 手 ,磁带 机 等 。 

(2) 虚拟 磁带 库 : 虚拟 带 库 有 两 类 ,一 类 是 真正 意义 上 的 产品 ,通过 唯一 界面 管理 系 
统 。 另 外 一 类 属于 解决 方案 ,也 就 是 使 用 专用 服务 器 、 操 作 系 统 、 虚 拟 磁带 库 软 件 和 磁盘 阵 
列 搭建 虚拟 磁带 库 系统 。 此 类 方案 会 造成 非常 复杂 的 管理 ,并 且 容 易 引 起 由 于 管理 不 当 造 
成 的 数据 丢失 。 

8. 软件 兼容 性 

(1) 物理 磁带 库 : 磁带 库 基 本 上 各 种 备份 软件 都 支持 ,并 且 很 多 备份 软件 的 高 级 特点 
如 Multiplexing .Synthetic Backup 都 支持 物理 磁带 库 。 

(2) 虚拟 磁带 库 : 对 于 有 些 虚拟 磁带 库 系 统 , 由 于 采用 黑 盒 子 的 管理 方式 ,对 于 某 些 备 
份 软件 的 功能 不 能 很 好 地 支持 。 

9. 数据 迁移 

(1) 物理 磁带 库 : 物理 磁带 库 的 数据 迁移 方式 有 两 种 ,一 种 是 通过 备份 软件 的 磁带 复 
制 或 者 归档 功能 将 一 个 磁带 库 中 的 数据 复制 到 另外 一 个 磁带 库 中 ,这 种 复制 与 磁带 格式 无 
关 。 第 二 种 就 是 将 介质 出 库 放 到 另外 一 个 磁带 库 中 。 

(2) 虚拟 磁带 库 : 虚拟 磁带 库 只 能 够 通过 备份 软件 将 虚拟 磁带 中 的 数据 复制 到 物理 磁 
带 库 的 磁带 介质 上 ;并且 只 有 通过 备份 软件 的 复制 ,才能 够 让 备份 软件 知道 数据 从 何 处 来 、 
到 哪里 去 ,否则 进行 数据 恢复 的 时 候 会 找 不 到 数据 。 


5.2 虚拟 磁带 库 的 实现 方式 


目前 市 场 上 的 虚拟 磁带 库 依照 架构 不 同 ,大 概 可 以 分 为 三 种 类 型 : 备份 软件 型 (D2D)、 
应 用 服务 器 型 (VTL Appliance)、 智 能 化 专用 型 (Intelligent High Preformance VTL)。 


5.2.1 备份 软件 型 虚拟 磁带 库 ( 第 工 代 D2D) 


将 磁带 库 模拟 软件 直接 安装 在 备份 服务 器 上 ,把 备份 服务 器 的 某 些 文件 系统 分 区 模拟 
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成 磁带 库 , 从 而 使 备份 软件 以 磁带 库 方式 使 用 磁盘 文 应 用 服务 器 
件 系 统 。 

此 类 方案 下 的 备份 磁盘 暴露 于 主机 的 操作 系统 ， 
本 质 上 依然 “在 线 ”。 在 用 户 看 来 ,依然 在 线 的 数据 一 
定 是 不 安全 的 。 举 例 来 说 ,如 果 备 份 服务 器 不 幸 被 病 
毒 感染 ,该 病毒 完全 可 能 在 损毁 在 线 磁盘 上 数据 的 同 
时 也 损毁 备份 盘 阵 上 的 数据 。 

另外 ,此 类 方案 占用 主机 资源 ,性 能 受 限 。 

这 种 方案 多 由 备份 管理 软件 作为 一 个 功能 模块 提 
供 , 价 格 比 较 低廉 。 但 由 于 受制 于 文件 系统 ,使 其 应 用 
场合 .1/O 性 能 及 数据 安全 性 具有 一 定 的 局 限 。 

因此 ,此 类 方案 主要 用 于 备份 缓存 ,也 即 先 备份 到 虚拟 磁带 
磁盘 ,然后 在 服务 器 不 忙 时 再 将 备份 转移 到 物理 磁带 图 5-1 备份 软件 型 虚拟 磁带 库 示意 图 
库 上 ,如 图 5-1 所 示 。 


5.2.2 应 用 服务 器 级 虚拟 磁带 库 方 案 ( 第 下 代 D2D) 


该 方案 实际 上 是 一 种 虚拟 磁带 库 的 软件 实现 方案 : 通过 把 虚拟 磁带 库 管理 软件 安装 在 
一 台独 立 的 专用 服务 器 (一 般 是 PC 服务 器 ) 内 ,而 将 该 服务 器 及 所 连接 的 磁盘 存储 设备 模 
拟 成 磁带 库 。 

这 种 方式 下 ,备份 服务 器 或 其 他 应 用 主机 通过 FC 或 SCSI 与 专用 的 服务 器 连接 ,此 时 
专用 服务 器 及 所 连接 的 磁盘 存储 系统 一 起 体现 为 虚拟 磁带 库 ( 虚 拟 磁 带 库 ) 。 

与 备份 软件 型 虚拟 磁带 库 方案 不 同 的 是 ,备份 服务 器 或 应 用 服务 器 把 专用 服务 器 及 其 
磁盘 阵列 当 作 了 一 台 磁 带 库 设 备 , 实 现 了 虚拟 磁带 库 设备 与 主机 设备 的 物理 和 逮 辑 上 的 分 
离 。 主 机 对 这 种 方案 下 的 虚拟 磁带 库 的 读 写 方式 是 数据 块 级 (Block-Level) 读 写 , 比 备份 软 
件 类 型 的 读 写 速度 快 ,并 且 不 会 从 主机 方 对 备份 数据 产生 误 删 除 操作 ,主机 上 的 病毒 也 不 会 
影响 备份 数据 。 

此 类 方案 下 ,虚拟 磁带 介质 磁盘 迎 辑 卷 不 再 是 操作 系统 格式 化 的 扇 区 ,而 是 和 磁带 一 样 
的 裸 介质 (raw disk) ;其 上 备份 数据 也 是 按 顺 序 逐 个 字 节 存放 的 ,在 物理 层 上 实现 了 磁盘 读 
写 的 线性 化 ,避免 了 文件 系统 的 碎 块 问题 ,充分 利用 了 磁盘 设备 的 高 速 1/O 性 能 。 

这 种 方案 的 不 足 是 需要 利用 一 台 具 有 一 定 扩充 能 力 的 PC 服务 器 作为 虚拟 磁带 库 管理 
器 ,系统 优化 性 略 低 ,控制 器 部 分 采用 PC 服务 器 结构 ,不 够 精简 。 另 外 PC 服务 器 以 及 其 连 
接 的 磁盘 阵列 管理 不 统一 ,不 是 一 体 化 结构 ,还 容易 产生 PC 服务 器 和 后 端 存储 的 不 兼容 问 
题 。 如 图 5-2 所 示 。 


5.2.3 智能 化 专用 型 虚拟 磁带 库 设备 方案 (第 焉 代 D2D) 


就 存储 市 场 而 言 ,我 们 熟知 的 主流 磁盘 阵列 就 是 采用 ARM 结构 . 岩 入 式 实 时 系统 作为 
核心 的 ,最 早 的 磁盘 阵列 形态 是 PC 服务 器 十 JBOD 磁盘 柜 , 随 着 市 场 和 技术 的 不 断 发 展 ,这 
种 老式 的 设备 在 可 靠 性 、 性 能 上 都 无 法 与 采用 ARM 结构 的 主流 磁盘 阵列 相 比 ,因此 ,市 场 
上 已 经 很 难看 到 这 种 早期 形态 的 磁盘 阵列 产品 了 。 

就 虚拟 磁带 库 这 种 应 用 来 说 , 它 的 发 展 趋 势 肯 定 也 会 和 磁盘 阵列 一 样 ,因此 ,基于 
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管理 模块 


虚拟 磁带 库 
图 5-2 应 用 服务 器 级 虚拟 磁带 库 方案 


ARM 结构 的 嵌入 式 系 统 采 用 统一 化 管理 ,成 为 智能 化 专用 型 虚拟 磁带 库 的 基本 特征 , 它 将 
磁带 库 模 拟 管理 软件 固化 在 特别 设计 的 ARM 结构 .嵌入 式 实时 系统 中 ,就 形成 了 专用 的 虚 
拟 磁带 库 设备 ,这 种 设备 可 以 配置 一 定数 量 和 类 型 的 主机 接口 和 后 端 存储 磁盘 阵列 接口 ,有 
的 专用 虚拟 磁带 库 设备 还 配置 了 归档 磁带 库 接口 。 专 用 的 虚拟 磁带 库 设 备 硬件 结构 不 同 于 
PC 服务 器 ,其 性 能 .可 靠 性 比 第 下 代 应 用 服务 器 型 虚拟 磁带 库 有 了 非常 大 的 提升 。 在 设计 
上 采用 了 精简 的 硬件 模块 和 精简 的 操作 系统 内 核 (一 般 为 Linux 内 核 ) ,并且 充 分 考虑 了 与 
主机 及 存储 设备 的 连接 能 力 。 

专用 的 虚拟 磁带 库 设备 标志 着 虚拟 磁带 库 技 术 终 于 突破 了 操作 系统 和 PC 服务 器 架构 
的 限制 ,使 虚拟 磁带 库 真 正成 为 一 种 独立 的 外 设 ,并且 真正 将 虚拟 磁带 库 控制 系统 和 磁盘 存 
储 阵列 统一 管理 起 来 ,其 使 用 方式 也 更 接近 普通 磁带 库 , 而 其 优越 性 能 也 体现 得 更 加 充分 。 
如 图 5-3 所 示 。 


自动 化 归档 设备 





虚拟 磁带 库 
图 5-3 智能 化 专用 型 虚拟 磁带 库 设备 方案 
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专用 虚拟 磁带 库 设备 方案 具有 如 下 特点 。 

。 设备 一 体 化 管理 统一 化 。 

。 性 能 大 幅 提 高 。 可 支持 接近 磁盘 阵列 极限 速度 的 备份 /恢复 速度 。 

免疫 病毒 。 数 据 安全 性 等 同 普通 磁带 库 。 

避免 磁盘 碎片 。 保 障 性 能 持续 性 。 

兼容 性 好 。 标 准 FC、SCSI 或 iSCSI 接口 设备 ,兼容 流行 的 主机 设备 和 操作 系统 。 
实用 性 好 。 与 现 有 磁带 库 应 用 方式 一 致 ,不 用 更 改 现 有 存储 应 用 软件 的 管理 策略 ， 
保护 用 户 投资 。 


5.3 虚拟 磁带 库 功 能 介绍 


虚拟 磁带 库 (Virtual Tape Library.VTL) 的 本 体 是 磁盘 阵列 ,可 利用 磁盘 可 随机 读 写 
的 特性 ,有 效 提高 还 原 性 能 ,因此 VTL 适 于 保存 还 原 概率 较 高 的 近期 生产 数据 ,也 就 是 作 
为 后 端 真实 磁带 的 缓冲 (Buffer) ,以 便 缩 短 备份 窗口 ,所 有 备份 数据 将 先 写 进 速度 较 快 的 
VTL, 然 后 再 于 其 他 时 间 转 存 到 真实 磁带 上 。 而 磁带 属于 抽取 式 媒体 ,易于 扩充 容量 (只 需 
购买 新 的 磁带 ) ,单位 成 本 低 ,适合 用 于 数据 的 长 期 保存 。 两 者 如 能 相辅相成 , 即 可 兼顾 效率 
与 成 本 的 需求 。 
5.3.1 新 型 环境 与 创新 存储 的 应 用 

VTL 可 利用 仿真 SCSI 指令 的 方式 .将 磁盘 仿真 成 磁带 设备 ,从 而 在 不 改变 原 有 磁带 备 
份 架构 的 前 提 下 ,以 磁盘 取代 磁带 ,达到 缩短 备份 窗口 ,提高 备份 成 功率 、 加 速 还 原 时 间 \ 读 
取 归 档 数据 效率 等 优势 。 

对 前 端的 备份 服务 器 或 应 用 服务 器 来 说 ,VTL 和 真实 磁带 设备 是 完全 一 样 的 ,前 端 完 
全 不 会 知道 后 端的 “磁带 ”, 实 际 上 是 VTL 系统 以 磁盘 仿真 出 来 的 空间 ,因此 VTL 能 相当 
程度 地 替代 真实 磁带 的 作用 。 

然而 随 着 信息 管理 法 规 的 要 求 ,长 期 存档 与 法 规 移 核 的 需求 日 益 增加 ,磁盘 作为 长 期 归 
档 媒体 仍 有 成 本 过 高 的 问题 :相对 地 ,单位 成 本 更 低 的 磁带 ,更 适合 这 种 环境 的 使 用 ,所 以 真 
实 磁带 设备 在 现今 企业 环境 中 仍 占有 一 席 之 地 。 实 际 上 ,通常 是 由 VTL 与 真实 磁带 构成 
三 层 式 的 备份 架构 .也 就 是 所 谓 的 磁盘 到 磁盘 再 到 磁带 (D2D2T) ,最 前 端 是 在 线 应 用 服务 
器 的 高 性 能 磁盘 ,最 末端 是 真实 磁带 设备 ,而 采用 中 低 价位 SATA 磁盘 构成 底层 的 VTL 则 
介 于 两 者 之 间 。 


5.3.2 直接 磁带 输出 


传统 上 要 将 数据 从 VTL 转 存 到 磁带 上 ,都 必须 通过 前 端的 备份 服务 器 来 执行 ,因此 会 
占用 备份 服务 器 的 作业 时 间 与 处 理 资源 。 当 备份 服务 器 执行 VTL 转 存 真 实 磁带 作业 时 ， 
就 没 办 法 执行 原来 的 正常 备份 工作 了 。 

因此 新 一 代 VTL 可 支持 "直接 磁带 输出 功能。 直接 从 VTL 把 数据 转 存 到 后 端 真 
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实 磁带 上 ,不 会 占用 前 端 备份 服务 器 的 资源 ,也 不 会 干扰 到 备份 服务 器 原来 排 定 的 备 
份 工作 。 


5.3.3 删除 重复 数据 


这 项 技术 可 通过 对 原始 数据 的 分 解 与 特征 值 演算 ,除去 数据 中 的 元 余部 分 ,让 有 限 的 存 
储 空间 发 挥 出 数 倍 甚至 数 十 们 的 存储 效率 ,大 幅 提 高 磁盘 有 效 的 存储 容量 。 

对 VTL 来 说 ,由 于 可 容纳 的 数据 量 提高 ,因此 使 用 者 原来 每 隔 几 天 或 每 周 就 需要 执行 
一 次 的 转 存 磁带 作业 ,可 改 为 间隔 1 个 月 甚至 是 半年 之 久 。 由 于 留存 在 硬盘 上 的 数据 量 增 
多 ,也 提高 了 数据 还 原 或 检索 的 速度 。 


5.3.4 I/O 负载 平衡 


传统 VTL 仿真 出 来 的 磁带 均 位 于 磁盘 上 的 固定 位 置 , 某 些 情况 下 ,可 能 会 发 生 许多 的 
备份 数据 流 均 集 中 到 一 个 磁盘 的 问题 ,以 致 形成 性 能 瓶颈 。 

1/O 负载 平衡 技术 则 采用 动态 的 1/O 分 配 ,虚拟 磁带 并 不 位 于 固定 的 位 置 ,系统 可 以 自 
动 分 配备 份 数据 流 写 入 磁盘 阵列 的 位 置 ,备份 数据 流 可 动态 地 平均 分 布 在 多 个 磁盘 LUN 
中 ,避免 形成 磁盘 的 LUN 撼 颈 。 


5.3.5 硬件 压缩 


压缩 是 磁带 机 必 备 的 基本 功能 ,仿真 真实 磁带 设备 的 VTL 自然 也 须 提供 这 项 功能 。 
但 软件 压缩 会 造成 处 理 器 的 负担 ,因此 也 降低 了 VTL 的 整体 性 能 。 某 些 情 况 下 启用 软件 
压缩 甚至 会 使 VTL 吞吐 量 降低 一 半 , 若 对 不 易 压 缩 的 离散 数据 启用 软件 压缩 ,那么 VTL 
的 吞吐 量 甚至 会 下 降 85% 。 导 入 专用 的 压缩 芯片 / 卡 , 可 在 不 影响 处 理 器 性 能 的 情况 下 执 
行 压缩 工作 , 比 起 使 用 软件 压缩 的 VTL ,吞吐 量 可 高 出 数 倍 。 


5.3.6 无 服务 器 人 磁带 备份 


传统 磁带 设备 或 VTL 的 作业 控制 都 需 依赖 备份 服务 器 ,因此 会 对 备份 服务 器 造成 负 
担 ,使 得 备份 服务 器 形成 备份 作业 的 性 能 瓶颈 。 而 无 服务 器 磁带 备份 则 不 占用 备份 服务 器 
资源 ,直接 将 数据 备份 到 磁带 或 VTL 上 。 如 NDMP 协议 在 备份 中 的 应 用 ,就 是 一 种 典型 
的 无 服务 器 磁带 备份 。 支 持 NDMP 协议 的 存储 设备 ,可 直接 将 数据 输出 到 后 端的 磁带 设备 
或 VTL 上 ,而 无 须 备份 服务 器 介入 。 


5.3.7 销毁 虚拟 磁带 


真实 磁带 可 通过 消 磁 等 方式 彻底 清除 数据 ,而 VTL 的 本 体 是 磁盘 ,因此 在 淘汰 磁盘 或 
是 更 新 设备 时 , 若 要 确保 留 在 旧 磁 盘 中 的 数据 不 致 遭 到 非法 复原 ,除了 以 物理 方法 销毁 外 ， 
必须 通过 符合 美国 国防 部 档案 销毁 标准 DoD 5220-22M 的 工具 ,通过 多 次 随机 数 清除 与 磁 
盘 复 写 动作 ,彻底 清除 VTL 中 保存 的 数据 ,这 种 作业 就 称 为 虚拟 磁带 销毁 ,可 依 需要 设 定 
销毁 特定 虚拟 磁带 数据 ,而 无 须 更 改 整个 系统 。 
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5.3.8 人 磁带 整合 


一 种 磁带 数据 转 存 作 业 ,将 多 卷 存放 数据 量 小 的 磁带 ,合并 成 单 卷 数据 的 磁带 输出 , 借 
此 节省 媒体 与 管理 成 本 。 除 了 节省 数据 占用 的 磁带 数目 外 ,也 能 在 不 同 规格 磁带 间 转 移 数 
据 。 过 去 这 类 作业 多 半 由 备份 软件 负责 .但 许多 新 型 VTL 也 已 内 建 这 项 功能 ,如 可 仿真 成 
小 容量 的 虚拟 磁带 来 执行 前 端的 备份 工作 ,而 在 需要 转 存 成 真实 磁带 时 , 则 先 转换 成 大 容量 
的 磁带 格式 后 再 行 输出 。 


5.3.9 伐 带 缓冲 


一 种 VTL 与 真实 磁带 搭配 的 作业 方式 , 当 备 份 数 据 写 入 VTL 并 成 为 虚拟 磁带 后 ,可 
一 并 输出 成 真实 磁带 ,如 此 VTL 就 好 像 是 后 端 真实 磁带 的 快照 一 样 。 一 旦 数据 写 进 VTL 
(快照 ) 后 ,马上 就 转 到 真实 磁带 上 ,然后 把 VTL 清空 。 也 可 以 让 数据 保留 在 VTL 中 一 段 
时 间 , 在 保留 时 间 内 ,如 果 需 要 还 原 数 据 ,可 以 直接 从 VTL 中 读 取 ,而 不 用 去 找 磁带 ,所 以 
还 原 时 也 更 方便 。 某 些 厂商 把 这 功能 称 为 影子 磁带 (Shadow Tapes)。 


5.3.10” 按 需 扩容 


VTL 须 事 先 在 磁盘 区 规划 出 一 定数 量 的 虚拟 磁带 ,规划 的 磁带 数量 越 多 ,占用 空间 越 
大 ,如 果 一 段 时 间 内 没 把 这 些 虚 拟 磁 带 空 间 用 满 , 就 会 形成 浪费 。 而 按 需 分 配 容量 技术 切 出 
来 的 虚拟 磁带 容量 是 “虚拟 ”的 ,直到 数据 实际 写 到 那 卷 虚拟 磁带 对 应 的 磁盘 区 后 ,系统 才 会 
实际 配给 容量 ; 接 下 来 可 以 视 写 人 数据 量 的 多 少 ,逐次 分 配对 应 的 磁盘 容量 给 虚拟 磁带 使 
用 ,可 大 幅 提高 容量 利用 率 ,减少 浪费 。 


5.4 虚拟 磁带 库 的 优势 与 劣势 


虚拟 磁带 库 (VTL) 是 将 磁盘 当 作 磁 带 处 理 , 与 磁盘 到 磁盘 直接 备份 相 比 ,VTL 具有 两 
大 优点 : 管理 方便 ,性 能 良好 。 实 现 磁盘 到 磁盘 直接 备份 需要 标准 共享 磁盘 阵列 的 所 有 配 
置 步 又。 相 比 之 下 ,如果 你 告诉 VTL 应 该 模拟 多 少 虚拟 磁带 驱动 器 .多少 虚拟 盒 式 磁带 ， 
VTL 软件 就 能 自动 实现 配置 ,为 虚拟 磁带 合理 分 配 磁盘 数 。 

如 果 需 要 扩展 VTL( 并 非 所 有 的 VTL 都 能 扩展 ) ,你 只 需 简单 地 连接 辅助 存储 器 ,告诉 
VTL 存储 所 在 位 置 ,VTL 就 能 自动 利用 新 分 配 的 存储 。 既 无 须 运行 卷 管理 器 ,也 无 须 管 理 
RAID 群 组 。 

VTL 还 有 一 个 非常 重要 的 管理 优势 , 即 很 容易 在 多 个 服务 器 和 应 用 程序 之 间 共 享 
VTL。 为 了 使 运行 同一 软件 的 多 个 备份 服务 器 能 够 共享 VTL., 应 利用 内 置 的 磁带 库 共享 性 
能 ,大 多 数 商业 备份 产品 都 具备 这 种 性 能 。 为 了 使 运行 不 同 程序 的 多 个 服务 器 能 够 共享 
VTL, 将 一 个 VTL 分 割 成 几 个 小 型 的 VTL, 同 时 为 每 个 VTL 分 配 一 定量 的 虚拟 磁带 ,使 
每 个 VTL 都 与 各 自 的 备份 服务 器 关联 。 这 两 种 情况 都 比较 容易 实现 ,而 在 多 个 备份 服务 
器 之 间 共 享 磁盘 到 磁盘 的 备份 则 比较 困难 。 
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5.4.1 VTL 的 优点 


为 了 理解 VTL 的 性 能 优势 , 先 思考 一 下 备份 程序 如 何 将 数据 写 人 磁带。 通常 ,在 到 达 
磁带 的 物理 结束 标记 (PEOT) 之 前 ,备份 程序 会 源源 不 断 地 将 数据 写 人 磁带 。 即 使 之 前 写 
入 的 一 些 数据 已 经 过 期 ,备份 程序 还 是 会 将 其 添加 到 磁带 中 。 一 旦 备份 程序 达到 PEOT , 磁 
带 就 写 满 了 。 大 多 数 备份 程序 会 将 数据 完全 留 在 磁盘 中 ,直至 所 有 的 备份 都 到 期 ;然后 整个 
磁盘 就 到 期 了 ,得 从 头 开始 写 。 另 外 一 个 备份 程序 在 旁 等 候 ,直到 磁带 中 过 期 的 备份 数据 达 
到 一 定数 量 , 随 后 将 没有 过 期 的 数据 迁移 到 另外 一 盘 磁 带 中 ,“ 回 收 ” 第 一 盘 磁 带 。 此 时 ,第 
一 盘 磁 带 已 过 期 ,可 以 被 覆盖 。 但 是 ,磁带 中 必须 有 一 部 分 不 被 覆盖 。 

备份 程序 将 数据 写 入 文件 系统 的 原理 与 此 不 同 。 程 序 会 提示 操作 系统 数据 需 写 入 特定 
的 某 个 文件 ,然后 开始 将 数据 写 入 那个 文件 。 备 份 都 有 专属 文件 ,文件 过 期 后 ,备份 就 会 被 
删除 。 备 份 程序 并 不 了 解数 据 如 何 写 人 磁盘 。 实 际 上 ,文件 的 字 节 在 磁盘 中 都 呈 碎 片 状 , 从 
而 使 得 备份 性 能 降低 。 

VTL 将 磁盘 当 作 磁 带 处 理 , 将 备份 写 人 磁盘 的 相 邻 区 域 中 ,从 而 使 字 节 不 再 呈 碎 片 状 。 
在 备份 程序 覆盖 磁带 之 前 ,分 配给 磁带 的 块 始终 不 变 , 这 样 VTL 就 能 将 数据 重新 写 入 磁盘 
的 相 邻 区 域 一 一 就 像 数 据 写 入 磁带 一 样 。VTL 供应 商 控制 RAID 卷 ,必须 保证 给 定 的 
RAID 群 组 只 能 写 人 特定 的 虚拟 磁带 。 如 果 应 用 程序 只 是 进行 读 操 作 或 写 操作 ,磁盘 的 性 
能 会 更 好 。 这 种 差异 就 能 解释 为 什么 最 快 的 文件 系统 每 秒 能 进行 百 兆 次 写 操作 ,而 最 快 的 
VTL 每 秒 能 进行 千 兆 次 写 操作 。 

VTL 还 有 其 他 优点 。VTL 能 与 现 有 的 备份 软件 .进程 .程序 兼容 。 换 名 话说 ,一 切 都 
如 物理 磁带 库 (PTL) 般 工作 。 不 过 例外 情况 并 不 是 指 磁带 到 磁带 直接 备份 ,在 D2D 中 , 备 
份 软件 的 工作 原理 截然 不 同 。 


5.4.2 VTL 的 缺点 


大 多 数 存 储 管理 员 认为 ,VTL 的 缺点 在 于 价格 昂贵 。 他 们 认为 如 果 磁 盘 阵 列 需 要 花费 
工 美元 ,那么 使 磁盘 阵列 成 为 VTL 就 要 花费 z+ 十 y 美元 。 但 是 ,y 美元 在 各 个 供应 商 之 间 又 
不 相同 。 大 多 数 VTL 的 几 个 根据 容量 确定 价格 ,也 就 是 说 成 本 为 x 美元 /GB。 但 也 有 供应 
商 根据 春 吐 量 制定 价格 ,因此 价格 由 光纤 通道 (FC) 链 路 的 数量 确定 。VTL 的 实际 价格 从 
4 一 12 美元 /GB。 所 以 一 味 地 认为 VTL 比 磁盘 设备 成 本 高 其 实 是 一 种 误解 。 

另外 ,还 有 个 问题 就 是 备份 软件 的 许可 费用 较 高 。 如 果 VTL 和 现 有 的 磁带 库 并 列 使 
用 ,VTL 可 能 需要 辅助 磁带 库 的 许可 费 , 支 付 实际 并 不 存在 的 磁带 库 。 这 就 使 得 VTL 成 本 
提高 。 支 付费 用 由 VTL 的 配置 方式 、 备 份 软件 对 磁带 库 的 收费 方式 确定 。 一 些 备份 软件 
产品 对 所 有 的 磁带 库 收取 相同 的 许可 费 ,而 另 一 些 产品 则 根据 槽 位 或 驱动 器 的 数量 收取 费 
用 。 在 决定 如 何 配置 VTL 的 时 候 ,应 该 考虑 到 备份 软件 如 何 收取 磁带 库 费 用 。 比 较 VTL 
和 磁带 到 磁带 直接 备份 时 ,需要 记 住 : 备份 软件 开始 对 磁带 到 磁带 直接 备份 收取 费用 。 

但 是 ,备份 软件 供应 商 开 始 根据 容量 制定 价格 ,努力 使 VTL 变 得 更 加 友好 ,许可 费 等 
问题 将 不 复 存在 。 

具备 压缩 功能 的 VTL 都 是 利用 带 内 软件 的 压缩 性 能 ,从 而 节约 空间 ,但 是 这 就 导致 性 
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能 降低 50%。 如 果 备 份 速度 受制 于 客户 端 或 网 络 , 你 可 能 就 不 会 看 到 这 种 性 能 的 影响 。 但 
是 ,在 本 地 或 没有 LAN 的 备份 中 ,备份 速度 更 容易 受 备份 设备 的 影响 。 一 些 供应 商 选 择 事 
后 执行 压缩 功能 ,这 样 就 既 实 现 了 压缩 ,又 不 降低 性 能 。 


5.5 虚拟 磁带 库 的 管理 方式 


随 着 磁带 库 成 为 近期 数据 恢复 的 首要 备份 目标 ,存储 管理 员 正 在 使 用 一 些 新 方法 来 充 
分 利用 磁带 优势 : 大 容量 、 低 成 本 、 可 移动 性 。 磁 盘 是 实现 快速 备份 和 恢复 的 最 佳 介质 ,但 
是 对 于 需 长 期 存储 和 保留 的 数据 ,磁带 才 是 最 优选 择 。 许 多 公司 在 备份 过 程 中 使 用 磁盘 和 
磁带 ,但 是 管理 这 两 种 介质 ,难免 产生 一 些 问题 ,比如 : 
磁盘 和 磁带 库 的 压缩 功能 在 算法 上 存在 差异 ; 

。 已 备份 数据 的 加 密 和 解密 问题 ; 

。 如 何 将 数据 保留 在 特定 介质 中 ,以 满足 应 用 程序 恢复 点 目标 和 恢复 时 间 目 标 ; 
。 如 何 管理 虚拟 磁带 和 物理 磁带 之 间 的 规模 差异 ; 

。 根据 节约 电力 或 能 源 成 本 的 原则 ,优化 数据 位 置 ; 

。 在 将 数据 迁移 到 磁带 之 前 , 重 构 已 经 被 重复 删除 的 数据 ; 

安排 数据 迁移 时 间 表 ,使 其 不 影响 备份 窗口 ; 

更 新 和 保护 备份 软件 目录 。 

尽管 一 些 虚 拟 磁带 库 (VTL) 能 够 管理 数据 从 磁盘 到 磁带 的 迁移 过 程 ,大 多 数 VTL 是 
将 数据 留 在 备份 软件 中 ,初始 化 数据 迁移 过 程 跟踪 数据 的 存储 位 置 。 

管理 主 框架 环境 中 的 磁盘 和 磁带 中 所 引入 的 原则 也 适用 于 开源 系统 VTL ,无须 主 框架 
成 本 ,也 没有 主 框架 限制 。 一 些 开 源 系统 VTL 中 包含 数据 管理 软件 ,能 够 管理 数据 从 磁盘 
到 磁带 、 磁 带 到 磁盘 的 复制 过 程 。 实 现 这 项 功能 有 两 种 可 用 的 软件 : 专业 管理 软件 和 第 三 
方 备份 软件 。 














5.6 虚拟 磁带 库 数 据 的 迁移 


数据 存储 在 VTL 中 后 ,从 VTL 再 将 数据 复制 或 迁移 到 其 他 介质 ,实现 长 期 存档 或 异 
地 数据 保护 就 成 为 一 个 难题 。 从 VTL 迁移 或 者 复制 数据 通常 有 三 种 方法 。 

(1) 利用 VTL 管理 数据 在 磁带 和 磁盘 之 间 的 迁移 活动 。 

(2) 利用 备份 软件 将 VTL 中 的 数据 迁移 到 磁带 中 。 

(3) 将 数据 复制 到 异地 VTL 中 。 

将 数据 从 VTL 迁移 到 磁带 中 是 最 简单 的 方法 ,但 是 .如果 将 数据 迁移 或 导出 到 磁带 
时 ,VTL 没有 通知 备份 软件 目录 ,备份 软件 目录 就 无 法 保持 一 致 性 。 有 时 候 , 备 份 软件 只 了 
解 备份 到 VTL 中 的 数据 ,而 不 了 解 从 VTL 迁移 到 磁带 中 的 数据 ,这 就 是 由 于 VTL 没有 通 
知 备份 软件 。 这 时 候 , 在 恢复 磁带 数据 之 前 ,就 无 法 恢复 VTL 及 其 目录 。 
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这 也 是 为 什么 要 采用 基于 磁带 库 的 架构 。 一 些 产 品 能 创建 真实 磁带 ,用 于 导出 数据 ,但 
是 只 有 在 备份 软件 的 控制 和 导向 下 才能 实现 。 这 样 ,备份 软件 目录 就 能 保持 一 致 性 ,在 磁带 
和 磁盘 之 间 迁 移 数据 时 不 会 给 备份 服务 器 带 来 SAN 流量 或 开销 ,从 而 实现 虚拟 磁带 和 真 
实 磁带 间 的 数据 复制 。 其 他 的 VTL 架构 供应 商 通 常会 建议 : 由 备份 软件 管理 并 实现 磁盘 
和 磁带 之 间 的 数据 迁移 。 但 是 ,这 种 方法 会 降低 备份 服务 器 和 SAN 的 性 能 ,只 有 在 备份 活 
动 不 频繁 的 时 期 才 可 以 使 用 ,以 减少 对 性 能 的 影响 。 

从 存储 节点 发 送 更 新 消息 到 主 目录 ,从 而 使 主 目录 保持 一 致 性 。 存 储 节点 在 虚拟 磁带 
和 真实 磁带 间 来 回迁 移 数 据 , 这 样 就 能 根据 磁带 位 置 更 新 主 备份 服务 器 中 的 目录 。 

迁移 数据 .异地 存档 数据 还 有 一 种 方法 ,就 是 安装 另外 一 个 VTL, 然 后 在 两 个 VTL 之 
间 复 制 数据 ,很 多 VTL 产品 都 支持 用 户 在 两 个 站 点 的 VTL 之 间 异 步 复 制 或 者 迁移 数据 ， 
几乎 不 再 需要 真正 的 磁带 。 但 是 ,这 种 方法 不 容易 扩展 ,而 且 需 要 很 大 的 网 络 带宽 。 只 有 当 
需要 迁移 或 者 复制 的 数据 很 少时 ,你 才 可 以 使 用 这 种 方法 。 


5.7 虚拟 磁带 库 与 重复 数据 删除 技术 介绍 


新 型 VTL 的 一 些 特征 大 大 增加 了 磁盘 中 可 以 存储 的 数据 量 , 同 时 也 使 数据 从 磁盘 到 
磁带 的 复制 过 程 变 得 更 加 复杂 。VTL 的 压缩 算法 不 同 于 目标 磁带 驱动 器 使 用 的 算法 。 因 
而 ,管理 员 在 将 数据 复制 到 磁带 时 ,可 以 采用 以 下 三 种 方法 中 的 一 种 : 

(1) 解压 缩 VTL 中 的 数据 ,然后 在 磁带 驱动 器 中 重新 进行 压缩 ; 

(2) 关闭 磁带 驱动 器 的 压缩 功能 ,直接 将 数据 从 磁盘 复制 到 磁带 ; 

(3) 关闭 VTL 中 的 磁盘 压缩 功能 。 

实际 上 ,这 些 方 法 都 不 是 太 理 想 。 第 一 种 方法 在 将 数据 复制 到 VTL 和 磁带 驱动 器 时 ， 
计算 机 开销 增加 ,不 过 这 种 方法 可 能 最 易 为 人 们 接受 ,取决 于 管理 员 将 数据 从 磁盘 复制 到 磁 
带 所 需 的 时 间 以 及 VTL 的 性 能 。 第 二 种 方法 能 够 减少 磁带 复制 过 程 的 性 能 开销 ,但 是 公 
司 必须 首先 将 数据 从 磁带 恢复 到 VTL 中 ,然后 再 从 VTL 中 恢复 。 关 闭 VTL 的 压缩 功能 
可 能 需要 2 倍 甚至 3 倍 的 容量 才能 存储 数据 。 

VTL 的 重复 数据 删除 技术 会 带 来 同样 的 问题 。 由 于 磁带 驱动 器 本 身 并 不 支持 重复 数 
据 删 除 技术 ,因而 如 果 VTL 需要 使 用 被 删除 的 重复 数据 ,就 必须 首先 以 原始 格式 重 构 数 
据 , 然 后 将 数据 发 送 到 磁带 中 。 这 就 需要 留 有 足够 的 时 间 , 确 保 VTL 的 性 能 ,以 便 重 构 被 
删除 的 重复 数据 ,然后 将 其 离线 发 送 到 磁带 中 。 从 技术 上 讲 , 被 删除 的 重复 数据 可 以 复制 到 
磁带 中 ,但 是 ,这 样 会 使 得 数据 恢复 过 程 依赖 于 VTL。 

大 多 数 公 司 不 会 遇 到 密码 问题 ,因为 一 般 情 况 下 ,只 有 在 将 数据 离线 迁移 之 前 才 会 对 数 
据 加 密 。 那 样 备份 软件 和 磁带 驱动 器 就 只 会 在 将 数据 存 入 磁带 时 才 加 密 数据 。 


5.7.1 重复 数据 删除 的 概念 


重复 数据 删除 是 基于 数据 自身 的 元 余 度 来 检测 数据 流 中 的 相同 数据 对 象 ,只 传输 和 存 
储 唯一 的 数据 对 象 副本 ,并 使 用 指向 唯一 数据 对 象 副本 的 指针 替换 其 他 重复 副本 , 相 比 于 传 
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统 的 数据 压缩 技术 ,重复 数据 删除 技术 不 仅 可 以 消除 文件 内 的 数据 元 余 ,还 能 消除 共享 数据 
集 内 文件 之 间 的 数据 元 余 。 


5.7.2 重复 数据 删除 的 技术 基础 


1. 产生 背景 

重复 数据 删除 是 一 项 专门 用 于 在 减少 需要 备份 的 数据 量 、 最 大 化 存储 利用 率 的 技术 ,使 
更 多 的 备份 数据 在 线 保留 更 长 时 间 。 通 常 来 讲 , 重 复数 据 删 除 技术 会 将 最 新 的 备份 数据 与 
已 有 的 备份 数据 进行 比 对 ,从 而 消除 元 余数 据 。 这 项 技术 的 优势 在 于 数据 的 减少 不 仅 使 存 
储 的 效率 更 高 .成 本 更 节约 ,带宽 的 利用 也 隆 到 最 低 , 使 更 经 济 、 更 快速 的 实现 备份 数据 的 远 
程 复制 成 为 可 能 。 然 而 ,目前 市 场 中 的 重复 数据 删除 解决 方案 还 有 很 大 差异 ,有 些 解决 方案 
会 使 备份 处 理 的 速度 变 得 很 慢 , 甚 至 引发 无 法 预计 且 不 可 恢复 的 数据 丢失 。 

2. 技术 对 比 

多 年 以 前 的 重复 数据 删除 技术 ,可 以 看 作 是 文件 级 的 技术 ,当时 称 为 “单一 实例 存储 ” 
(Single Instance Store,SIS) ,通过 SIS 技术 ,整个 文件 系统 或 电子 邮件 系统 的 重复 文件 可 以 
减少 到 只 保留 单一 的 复制 , 当 再 出 现 这 一 文件 时 ,会 指向 到 这 个 单一 复制 ,从 而 减少 容量 需 
求 。 这 一 技术 通常 用 于 电子 邮件 管理 及 归档 系统 。 

今天 的 重复 数据 删除 技术 利用 了 与 SIS 类 似 的 数据 缩减 概念 ,但 却 使 之 向 前 迈进 了 一 大 
步 ,实现 了 块 级 ( 子 文件 ) 重 复数 据 删 除 。 当 读 取 数据 时 ,系统 利用 Hash 算法 识别 唯一 的 数据 
块 ,系统 将 保留 Hash 索引 ,每 个 Hash 编码 指向 一 个 不 同 的 数据 块 。 当 新 的 备份 发 生 时 ,会 自 
动 与 现 有 的 块 进行 比 对 ,如 果 索 引 中 已 经 有 相同 的 块 ,数据 将 会 被 删除 或 被 指向 块 的 指针 所 代 
替 ; 反 之 , 则 会 被 保存 并 在 索引 中 为 其 创建 一 个 新 的 Hash 编码 。 这 里 提 到 的 唯一 数据 块 的 大 
小 ,会 根据 用 户 选 择 的 重复 数据 删除 解决 方案 的 不 同 而 不 同 ,平均 大 小 在 4 一 24KB。 

与 文件 级 SIS 技术 相 比 , 块 级 的 重复 数据 删除 技术 可 以 说 更 具 优 势 。 它 可 以 在 不 同 的 
文件 或 应 用 中 消除 元 余数 据 块 。 比 如 ,如 果 一 个 文件 只 做 了 相当 小 的 一 点 修改 并 保存 , 块 级 
重复 数据 删除 技术 则 将 只 保存 发 生变 化 的 数据 块 。 按 这 种 方式 , 块 级 重复 数据 删除 可 以 提 
供 更 好 的 压缩 比率 ,特别 是 应 用 于 巨大 数据 量 的 情况 下 ,如 数据 库 或 全 备份 之 后 。 

下 面 的 例子 进一步 说 明了 SIS 和 块 级 两 种 重复 数据 删除 技术 的 结果 比较 。 

一 个 企业 向 1000 个 邮件 地 址 发 出 一 封 带 有 注册 内 容 的 活动 邀请 函 ,传统 的 备份 应 用 将 
会 把 文件 备份 1000 次 。SIS 解决 方案 可 以 识别 出 文件 是 相同 的 ,将 只 会 保留 一 份 备份 , 然 
后 生成 999 个 指针 指向 那个 唯一 的 备份 ,因此 ,大 概 节省 了 99. 9% 的 空间 。 但 是 ,之 后 这 
1000 个 参 会 人 可 能 会 将 注册 内 容 填 好 后 回复 给 发 件 人 ,由 于 他 们 的 名 字 不 同 ,SIS 解决 方案 
就 会 备份 1000 份 回执 。 

块 级 解决 方案 在 发 出 邀请 函 的 时 候 执行 了 相同 的 重复 数据 删除 处 理 , 也 实现 了 99. 9% 
的 存储 空间 节省 。 但 是 , 当 收 到 1000 份 参 会 人 的 回执 时 , 块 级 解决 方案 会 发 现 每 个 回执 的 
大 部 分 内 容 与 第 一 封 收 到 的 是 相同 的 并 已 经 备份 过 ,因此 , 它 只 会 对 其 他 999 封 回 执 的 相 异 
数据 块 ( 块 级 ?进行 备份 。 这 种 方法 与 SIS 技术 相 比 , 则 还 可 以 节省 额外 的 99. 9% 的 存储 
空间 。 
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3. 优势 对 比 

由 于 块 级 重复 数据 删除 技术 只 保存 发 生变 化 的 数据 , 极 大 地 减少 了 所 需 的 备份 容量 ,使 
用 户 不 用 再 像 从 前 一 样 购置 大 量 磁盘 ,从 而 将 用 户 备 份 系统 的 总 成 本 降 到 最 低 。 更 少 的 磁 
盘 致 使 存储 系统 更 少 ,电力 及 制冷 需求 更 小 ,同时 还 降低 了 整体 系统 的 复杂 性 。 

与 传统 的 磁带 备份 解决 方案 相 比 , 重 复数 据 删除 技术 完全 改变 了 磁盘 备份 的 经 济 性 。 
通过 这 一 技术 ,更 多 的 用 户 可 以 负担 得 起 用 磁盘 备份 取代 整个 或 是 部 分 磁带 备份 的 解决 方 
案 。 磁 盘 备 份 相对 于 磁带 备份 来 说 ,提供 了 更 好 的 备份 及 恢复 性 能 。 通 过 利用 磁盘 备份 的 
方式 ,用 户 可 以 进一步 改善 他 们 的 服务 品质 协议 (Service-Level Agreements,SLAs) 。 

当 通 过 数据 复制 实现 灾 备 时 ,重复 数据 删除 技术 也 可 以 带 来 卓越 利益 。 由 于 减少 了 备 
份 数据 量 , 重 复数 据 删 除 技术 将 主 站 点 与 远程 数据 中 心 之 间 的 带宽 需求 ,数据 传输 成 本 、 复 
制 时 间 都 降 到 最 低 。 企 业 利 用 相对 经 济 的 WAN 网 络 即 可 在 任意 地 理 空间 范围 内 执行 复制 
操作 ,实现 了 额外 的 成 本 节约 。 

4. 使 用 场景 

理论 上 讲 , 重 复数 据 删除 技术 可 以 用 于 任意 地 点 存在 的 数据 。 它 可 以 与 在 线 或 是 离线 
的 数据 一 起 工作 ,可 以 在 文件 系统 或 是 数据 库 中 ,也 可 以 在 其 他 应 用 中 。 总 的 来 说 ,哪里 有 
大 量 的 重复 数据 , 它 就 能 在 哪里 呈现 出 最 大 的 利益 回报 。 

而 最 好 的 应 用 示例 是 企业 级 备份 。 企 业 大 都 是 每 天 做 一 次 全 备份 ,两 日 的 全 备份 中 通 
常 只 有 很 小 部 分 的 数据 是 不 同 的 ,不 会 超过 5%% ,大 部 分 备份 扇 区 都 是 相似 的 。 这 种 情况 
下 ,重复 删除 为 备份 系统 带 来 了 最 佳 的 利益 回报 。 因 此 ,大 多 数 重复 数据 删除 解决 方案 都 是 
专 为 备份 系统 而 设计 的 。 

5. 发 展 趋势 

从 性 能 的 角度 看 ,只 能 提供 单 台 重复 数据 删除 服务 器 /设备 的 解决 方案 根本 无 法 满足 每 
天 需要 备份 成 百 TB 数据 或 每 天 需要 多 次 备份 的 大 型 企业 的 需求 。 在 这 种 情况 下 ,重复 数 
据 删 除 反 而 会 造成 瓶颈 。 一 些 企业 考虑 用 两 台 或 多 台 设备 完成 这 一 工作 ,但 由 于 每 台 设 备 
都 保留 了 它 自 己 的 Hash 索引 ,设备 根本 不 能 鉴别 出 重复 的 数据 是 否 已 经 由 另 一 台 设备 备 
份 。 这 种 方法 不 仅 会 影响 到 重复 数据 删除 的 比率 ,还 会 增加 维护 的 工作 量 。 

单 台 重复 数据 删除 服务 器 /设备 也 会 成 为 单 点 故障 。 如 果 重 复数 据 删 除 服务 器 /设备 发 
生 故 障 , 所 有 的 备份 工作 则 都 将 失败 ,更 糟 的 情况 是 造成 恢复 过 程 中 的 失败 。 尽 管 单 台 重复 
数据 删除 服务 器 /设备 在 实际 应 用 过 程 中 出 现 故障 的 情况 非常 罕见 ,但 这 对 企业 来 说 还 是 一 
个 潜在 的 、 无 法 接受 的 风险 。 

其 实 , 针 对 这 个 难题 有 一 种 解决 办 法 ,就 是 重复 数据 删除 集群 , 即 利用 双 工 故障 切换 架 
构 。 在 集群 的 重复 数据 删除 架构 中 ,2 台 或 4 台 重 复数 据 删 除 设 备 被 虚拟 化 为 一 台 , 为 用 户 
提供 了 双 倍 或 四 倍 的 吞吐 及 处 理 能 力 。 如 果 它 们 中 的 任意 一 台 出 现 故 障 , 另 外 的 设备 就 会 
自动 地 接管 它 的 工作 负荷 ,以 确保 处 理 的 连续 性 。 由 于 集群 仍然 保留 的 是 单个 的 Hash 表 ， 
因此 它 不 会 影响 到 重复 数据 删除 比率 。 


5.7.3 重复 数据 删除 技术 的 分 类 


基于 不 同 的 区 分 原则 ,我 们 可 以 对 重复 数据 删除 技术 进行 不 同 的 分 类 ,根据 进行 重复 数 
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据 删除 操作 位 置 的 不 同 ,可 以 分 为 源 端 重复 数据 删除 和 目标 端 懂得 重复 数据 删除 , 源 端 重复 
数据 删除 可 以 直接 在 文件 系统 内 部 实现 ,能 够 节省 网 络 带 宽 , 但 数据 缩减 率 不 高 ,在 目标 短 
时 间 内 进行 重复 数据 删除 便于 采用 硬件 来 实现 ,可 以 消除 不 同 源 之 间 的 共享 数据 ,获得 更 好 
的 数据 缩减 率 。 

而 根据 进行 重复 数据 删除 操作 时 机 的 不 同 ,又 可 以 分 为 在 线 重复 数据 删除 和 离线 重复 
数据 删除 。 在 线 重复 数据 删除 能 够 及 时 缩减 数据 ,不 需要 进行 后 处 理 , 但 对 吞吐 量 有 影响 。 
离线 重复 数据 删除 又 称 为 后 处 理 重复 数据 删除 ,是 数据 存储 之 后 再 进行 重复 数据 删除 ,可 以 
并 行 地 处 理 , 但 需要 保留 足够 大 的 空闲 空间 。 

按 进行 重复 数据 删除 操作 颗粒 度 的 差异 ,还 可 以 分 为 文件 级 、 块 级 、 字 节 比 特级 重复 数 
据 删除 。 而 块 级 又 可 以 根据 划分 块 的 长 度 是 否 可 变 ,分 为 定 长 块 和 变 长 块 的 重复 数据 删除 
技术 ;重复 数据 删除 操作 的 粒度 越 小 ,删除 的 元 余数 据 越 多 ,但 是 实现 的 复杂 程度 和 系统 开 
销 也 相应 增加 。 

此 外 ,根据 重复 数据 删除 操作 范围 的 不 同 ,可 以 分 为 全 局 重复 数据 删除 和 局 部 重复 数据 
删除 ;根据 重复 数据 匹配 效果 的 差异 ,还 可 以 分 为 精确 重复 数据 删除 和 近似 重复 数据 删除 。 

目前 ,重复 数据 删除 技术 主要 应 用 于 备份 、 容 灾 和 归档 系统 存储 中 ,这 主要 是 因为 备份 、 
容 灾 和 归档 应 用 以 写 操 作为 主导 ,其 数据 集 内 具有 大 量 的 元 余数 据 ,对 于 备份 和 容 灾 而 言 ， 
重复 数据 删除 技术 不 仅 能 节省 空间 和 优化 性 能 ,还 能 简化 数据 备份 模式 ,并 缩减 备份 窗口 和 
优化 网 络 带宽 ,实现 高 效 的 数据 备份 和 恢复 。 而 对 于 归档 应 用 ,重复 数据 删除 除了 能 提供 快 
速 的 写 操作 以 外 ,还 容易 实现 数据 的 不 可 控 除 和 不 可 重 写 特 性 ,这 对 归档 数据 的 审计 和 安全 
管理 具有 很 大 的 吸引 力 。 

凭借 在 数据 缩减 上 的 优势 ,重复 数据 删除 技术 也 应 用 在 虚拟 机 环境 下 的 主 存储 系统 中 ， 
由 于 虚拟 机 环境 中 的 每 个 虚拟 机 都 要 求 为 其 操作 系统 采用 专用 的 存储 ,用 户 有 可 能 为 很 多 
虚拟 机 安装 同样 的 操作 系统 和 应 用 程序 ,因此 ,利用 初 伏 数据 删除 技术 可 以 为 基于 虚拟 机 的 
主 存储 系统 节省 大 量 的 存储 空间 。 


5.7.4 重复 数据 删除 操作 的 基本 原理 


(1) 数据 划分 : 原文 件 按照 给 定 的 数据 划分 策略 分 割 成 若干 个 CHUNK ,并 为 文件 建 
立 一 个 CHUNK 列表 。 一 般 情况 下 选择 的 CHUNK 粒度 越 小 数据 缩减 率 越 高 ,元 数据 量 
会 相应 增加 ,系统 开销 也 会 增 大 。 

(2) 特征 选择 : 基于 每 个 Chunk 的 内 容 期 望 选择 能 唯一 标识 它 的 特征 ,并 将 特征 值 添 
加 到 文件 的 CHUNK 列表 中 。 一 般 选 择 抗 冲突 加 密 HASH 值 作为 其 特征 ,如 SHA-1 和 
MD5 等 算法 ;有 研究 者 认为 HSAH 函数 存在 碰撞 和 生日 悖 论 值得 怀疑 ,特别 是 在 海量 数据 
存储 系统 中 HASH 冲突 不 可 忽视 ,一 些 系统 会 因为 利用 基于 属性 的 识别 文件 或 者 对 相同 
HASH 的 碰撞 而 引起 数据 丢失 ,如 IBM 公司 的 HyperFactor 技术 。 

(3) 相同 检测 : 将 CHUNK 的 特征 在 CHUNK 索引 中 进行 比 对 以 确定 相同 数据 。 随 
着 存储 系统 的 扩展 .CHUNK 索引 会 越 来 越 大 ,很 容易 使 相同 检测 成 为 整个 重复 数据 删除 
过 程 中 的 瓶颈 。 

(4) 元 余 消除 : 通过 相同 检测 ,如 果 发 现 CHUNK 索引 中 有 相同 的 特征 , 则 不 需要 保存 
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此 CHUNK。 在 获取 文件 时 ,通过 文件 的 CHUNK 列表 和 CHUNK 索引 即 可 找到 相应 的 
CHUNK 副本 。 

(5) 数据 保存 : 通过 相同 检测 , 若 没有 发 现 相同 的 特征 , 则 将 相应 的 CHUNK 保存 到 磁 
盘 上 ,并 将 CHUNK 的 特征 值 和 CHUNK 逻辑 块 的 映射 信息 保存 到 CHUNK 索引 中 ,以 便 
进行 相同 的 检测 和 文件 获取 。 对 比 传统 的 存储 系统 ,重复 数据 删除 系统 基于 内 容 寻 址 ,而 不 
是 基于 文件 名 寻 址 。 尽 管 减少 了 写 操作 ,但 是 由 于 增加 了 重复 数据 删除 的 处 理 过 程 , 比 传统 
存储 系统 的 1/O 性 能 要 低 。 由 于 每 次 只 写 新 的 数据 ,重复 数据 删除 系统 具有 顺序 写 、 随 机 
读 的 特点 。 另 外 ,因为 需要 先 检 测 CHUNK 是 否 与 别 的 文件 共享 ,重复 数据 删除 系统 的 删 
除 操作 性 能 低 , 为 方便 数据 审计 和 安全 管理 的 需要 ,通过 增加 保留 锁 可 以 很 容易 实现 数据 的 
不 可 擦 除 和 不 可 重 写 特性 ,此 外 重复 数据 删除 系统 支持 对 象 存 储 技术 ,方便 数据 的 管理 。 


5.7.5 重复 数据 删除 可 选择 的 方式 


目前 市 场 中 的 重复 数据 删除 解决 方案 提供 了 多 种 删除 重复 数据 的 方式 ,如 果 想 找 出 最 
适合 用 户 需求 的 方式 ,需要 考虑 两 个 关键 性 因素 : 在 哪里 进行 重复 数据 删除 ( 源 数据 端 还 是 
目标 端 ) :在 备份 处 理 的 哪个 阶段 删除 重复 数据 删除 (在 备份 过 程 还 是 备份 之 后 ) 。 

1. 源 数 据 端 

一 些 重复 数据 删除 产品 在 源 数据 端 工作 ,这 意味 着 它们 是 位 于 主机 或 应 用 服务 器 上 的 。 
这 种 方式 要 求 为 每 一 台 需 要 进行 备份 的 机 器 安装 重复 数据 删除 系统 。 当 数据 传送 到 备份 软 
件 之 前 即 识别 重复 数据 并 删除 。 这 种 重复 数据 删除 方式 具有 如 下 优点 。 

(1) 数据 在 网 络 传输 前 就 减少 了 ,改善 了 传输 性 能 ,节省 了 网 络 带宽 。 

(2) 从 扩展 性 角度 讲 , 整 体 性 能 与 客户 端的 数量 无 关 , 因 此 ,在 进行 扩展 时 不 会 影响 到 
备份 性 能 。 

(3) 由 于 是 在 对 重复 数据 做 删除 处 理 的 同时 传输 数据 ,因此 在 处 理 过 程 中 不 再 需要 和 额 
外 的 存储 设备 。 

然而 ,这 种 处 理 方式 也 有 以 下 缺点 。 

(1) 必须 在 每 一 台 备 份 服务 器 上 安装 重复 数据 删除 系统 。 在 大 型 企业 环境 中 ,特别 是 
具有 分 布 于 各 地 的 分 支 机 构 的 大 型 企业 ,软件 的 安装 和 维护 工作 极其 复杂 。 

(2) 重复 数据 删除 处 理 运 行 于 应 用 服务 器 上 ,会 消耗 服务 器 的 运算 能 力 ,影响 到 应 用 性 
能 。 这 对 于 大 多 数 企业 来 说 是 不 可 接受 的 。 

(3) 有 些 重复 数据 删除 解决 方案 在 设计 之 初 并 没有 考虑 到 与 用 户 已 经 安装 的 备份 软件 
相 集 成 ,因此 ,用 户 必须 为 了 使 用 它 而 更 换 备份 软件 ,这 便 增加 了 部 署 解决 方案 时 的 工作 量 
及 风险 ,对 于 那些 具有 大 量 归档 数据 的 企业 用 户 来 说 ,这 种 方案 并 不 可 行 。 

2. 目标 端 

目标 端的 重复 数据 删除 处 理 通 常 是 运行 于 一 台独 立 于 主机 或 应 用 服务 器 之 外 的 设备 
(服务 器 或 工具 ) 之 上 。 下 面 是 几 种 典型 的 目标 端 重复 数据 删除 方式 。 

(1) 具备 重复 数据 删除 功能 的 虚拟 磁带 库 CVTL) 。 

(2) 具备 重复 数据 删除 功能 的 磁盘 设备 。 

(3) 具备 重复 数据 删除 功能 的 备份 软件 。 
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值得 一 提 的 是 ,目标 端 重复 数据 删除 解决 方案 可 以 与 现 有 的 备份 软件 相 整合 ,运行 于 备 
份 服务 器 上 。 备 份 数据 先 发 送 到 重复 数据 删除 设备 上 ,重复 数据 删除 在 后 端 完成 。 相 对 于 
源 数据 端 方式 , 它 的 优势 如 下 。 

(1) 企业 无 须 改变 其 当前 的 备份 系统 。 

(2) 这 种 架构 无 须 更 换 应 用 服务 器 。 由 于 它 不 会 消耗 应 用 服务 器 的 运算 能 力 , 应 用 性 
能 不 会 受到 任何 影响 。 

(3) 重复 数据 删除 服务 器 /设备 能 够 从 不 同 的 备份 客户 端 删 除 所 有 元 余数 据 。 这 对 于 
具有 大 量 应 用 或 数据 库 服务 器 的 企业 来 说 ,是 非常 经 济 高 效 的 解决 方案 。 

对 于 那些 不 想 改变 现 有 备份 系统 ,也 不 想 牺 牲 应 用 性 能 的 企业 用 户 来 说 ,目标 端 重复 数 
据 删 除 无 疑 是 最 佳 的 方式 。 

3. 在 线 处 理 

在 线 处 理 的 重复 数据 删除 ,是 指 重 复数 据 删除 服务 器 /设备 从 备份 软件 开始 传输 数据 ， 
数据 还 没有 写 人 磁盘 之 前 , 即 执行 重复 数据 删除 。 它 的 重要 优势 是 经 济 高 效 , 可 以 减少 存储 
容量 的 需求 。 它 不 需要 用 于 保存 还 未 进行 重复 数据 删除 的 数据 集 的 临时 磁盘 空间 。 

尽管 在 线 处 理 的 重复 数据 删除 减少 了 备份 数据 的 数量 ,但 处 理 本 身 会 减 慢 备 份 的 速度 。 
因为 重复 数据 删除 是 在 写 和 到 磁盘 之 前 进行 ,重复 数据 删除 处 理 本 身 就 是 一 个 单 点 故障 。 
因此 ,如 果 企业 在 需要 保留 备份 数据 宛 余 的 时 候 是 不 能 选择 在 线 处 理 方式 的 。 

4. 后 处 理 

后 处 理 的 重复 数据 删除 ,也 被 称 为 离线 的 重复 数据 删除 ,是 指 在 备份 处 理 完 成 后 再 执行 
重复 数据 删除 。 备 份 数据 先 被 写 和 到 临时 的 磁盘 空间 ,之 后 再 开始 重复 数据 删除 ,最 后 ,将 
经 过 重复 数据 删除 的 数据 复制 到 末端 磁盘 上 。 

后 处 理 方式 有 一 个 很 小 的 问题 在 于 它 需 要 额外 的 磁盘 空间 来 保存 全 部 还 未 删除 重复 数 
据 的 数据 集 。 但 是 , 低 成 本 的 SATA 磁盘 可 以 用 作 这 部 分 ,因此 ,对 于 大 多 数 企业 来 说 ,这 
根本 算 不 上 什么 问题 。 

后 处 理 的 重复 数据 删除 方式 带 了 诸多 优势 。 

(1) 由 于 重复 数据 删除 是 备份 完成 后 在 单独 的 存储 设备 上 执行 ,因此 完全 不 会 对 备份 
处 理 造 成 影响 。 管 理 员 可 以 随意 制定 重复 数据 删除 的 进程 ,无 论 怎样 的 频率 都 可 以 ,性 能 更 
加 可 靠 、 可 控 。 

(2) 先 将 备份 数据 保留 在 磁盘 上 进行 重复 数据 删除 ,企业 在 需要 时 则 可 以 更 加 快速 地 
恢复 最 近 备 份 的 文件 和 数据 。 

某 种 角度 上 讲 .在线 处 理 方式 也 许 更 适用 于 小 型 企业 的 需求 ,而 后 处 理 方式 对 于 中 型 及 
大 型 企业 来 说 是 更 佳 的 解决 方案 。 


5.7.6 重复 数据 删除 的 优势 


1. 能 够 与 当前 环境 相 整 合 
一 个 高 效 的 重复 数据 删除 解决 方案 应 该 对 当前 IT 环境 的 影响 /中 断 越 小 越 好 。 许 多 
企业 都 选择 利用 VTL 备份 来 避免 影响 /中 断 ,以 在 不 改变 企业 当前 备份 策略 、 处 理 或 软件 
的 情况 下 提升 备份 质量 。 因 此 ,基于 VTL 的 重复 数据 删除 技术 在 部 署 时 对 环境 影响 也 应 
该 是 最 小 的 。 它 将 更 多 的 注意 力 集中 在 了 备份 这 个 巨大 的 重复 数据 存储 池上 。 
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基于 VTL 的 重复 数据 删除 解决 方案 通常 要 求 使 用 专用 设备 ,但 这 并 不 影响 部 署 的 灵 
活性 。 一 个 充分 灵活 的 重复 数据 删除 解决 方案 应 该 即 可 以 以 软件 包 形 式 提 供给 用 户 ,也 可 
以 提供 给 用 户 整体 的 解决 方案 (Turnkey Appliance) ,从 而 最 大 限度 地 使 用 户 的 现 有 资源 得 
以 利用 。 

2. 具备 可 扩展 能 力 

由 于 重复 数据 删除 解决 方案 是 用 于 长 期 的 数据 存储 的 ,在 容量 和 性 能 方面 的 可 扩展 能 
力也 是 非常 重要 的 考虑 因素 ,而且 至 少 要 考虑 未 来 五 年 甚至 更 长 时 间 的 增长 计划 。 那 么 ,在 
保证 快速 访问 的 前 提 下 ,你 希望 有 多 少数 据 保存 在 磁带 上 ? 你 需要 怎样 的 数据 索引 系统 呢 ? 

优秀 的 重复 数据 删除 解决 方案 提供 的 架构 ,无 论 是 在 初始 部 署 时 ,还 是 面 对 未 来 系统 的 
长 期 增长 ,都 应 该 能 保证 最 优化 (Right-sizing) 、 最 经 济 的 架构 规模 。 集 群 可 以 帮助 用 户 满 
足 不 断 增长 的 容量 需求 ,即使 是 多 数据 增长 的 环境 ,也 不 会 降低 重复 数据 删除 的 效率 或 系统 
的 性 能 。 

这 个 架构 还 为 存储 库 保护 的 部 分 提供 了 故障 切换 (Failover) 功 能 。 

3. 支持 分 布 式 应 用 

重复 数据 删除 技术 ,不 只 是 能 为 单个 数据 中 心 带 来 利益 ,对 于 具有 多 个 分 支 机 构 或 多 个 
站 点 的 大 型 企业 来 说 , 它 可 以 让 整个 企业 的 分 布 式 应 用 受益 无 穷 。 一 个 包含 复制 和 多 级 重 
复数 据 删 除 的 解决 方案 可 以 将 这 一 技术 的 优势 发 挥 到 极致 。 

举例 来 说 ,一 个 企业 由 1 个 总 部 和 3 个 区 域 代表 机 构 构 成 ,可 以 在 区 域 代表 机 构 部 署 一 
台 具 备 重复 数据 删除 功能 的 容 灾 设 备 ,使 本 地 存储 及 向 远程 中 央 站 点 的 复制 更 为 高 效 。 这 
种 解决 方案 使 数据 复制 到 中 央 站 点 的 带宽 需求 降 到 最 低 , 它 只 不 过 是 用 来 确定 远程 的 数据 
是 否 已 经 包括 在 中 央 的 存储 库 中 。 所 有 站 点 中 ,只 有 唯一 的 数据 会 被 复制 到 中 央 站 点 或 是 
容 灾 站 点 ,否则 所 需 的 带宽 就 会 增 大 。 

4. 能 够 对 存储 库 提 供 实 时 保护 

保证 对 删除 重复 数据 的 存储 库 的 访问 是 非常 关键 的 ,因此 它 不 能 允许 有 单 点 故障 发 生 。 
一 个 优秀 的 重复 数据 删除 解决 方案 应 该 包括 可 以 在 本 地 存储 故障 发 生 时 提供 保护 的 镜像 功 
能 ,同时 也 应 该 具备 复制 功能 以 在 灾难 发 生 时 提供 保护 。 这 种 解决 方案 还 应 该 在 出 现 节点 
故障 时 具备 故障 切换 能 力 ,即使 是 一 个 集群 中 的 多 个 节点 出 现 故 障 ,企业 也 必须 能 够 及 时 恢 
复数 据 同 时 还 要 保证 业务 持续 运营 。 

5. 找到 最 适合 的 整体 解决 方案 

由 于 业务 应 用 需要 和 法 律 法 规 的 要 求 , 存 储 的 数据 量 还 在 不 断 地 增加 ,重复 数据 删除 也 
快速 上 升 到 至 关 重 要 的 地 位 。 在 大 幅 消 除数 据 量 、 前 减 存 储 需求 .最 小 化 数据 保护 成 本 和 风 
险 方面 ,重复 数据 删除 可 以 说 是 唯一 的 应 对 办 法 。 

尽管 重复 数据 删除 技术 所 带 来 的 利益 很 多 ,企业 还 是 应 该 抵御 住 不 时 出 现 的 针对 这 一 
技术 的 大 肆 炒 作 。 无 论 是 哪 种 方式 ,重复 数据 删除 的 删除 比率 都 可 以 根据 数据 自身 的 格式 
和 保护 策略 的 不 同 而 发 生变 化 。 

为 了 使 重复 数据 删除 技术 的 利益 最 大 化 ,企业 应 该 从 上 面 提 到 的 几 个 标准 出 发 ,充分 考 
虑 ,仔细 评估 ,找到 真正 适合 自己 的 重复 数据 删除 解决 方案 ,而 不 应 该 简单 地 听信 于 宣传 的 
重复 数据 删除 比率 的 理论 数值 。 
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5.8 虚拟 磁带 库 的 趋势 介绍 


传统 的 磁带 备份 软件 的 核心 功能 是 连接 并 管理 磁带 设备 ,并 以 磁带 的 格式 读 写 数据 。 
而 近 几 年 出 现 的 虚拟 磁带 库 (VTL) 技 术 完全 改变 了 备份 的 应 用 模式 ,将 数据 直接 写 到 磁盘 
上 成 了 备份 软件 的 主要 功能 。 

虚拟 磁带 库 厂 商 早 期 发 布 的 产品 都 是 在 模拟 流行 的 光纤 通道 磁带 库 的 功能 ,优先 考虑 
与 主流 备份 软件 保持 兼容 性 ;其 次 是 确保 虚拟 磁带 库 不 会 成 为 备份 过 程 中 的 单 点 故障 ;此 
外 ,提供 方便 的 对 虚拟 磁带 进行 远程 复制 的 功能 ,以 实现 灾难 恢复 (DR) 的 目的 。 虚 拟 磁带 
库 厂商 还 与 磁盘 存储 厂商 合作 ,将 虚拟 磁带 库 软件 与 存储 硬件 集成 在 一 起 作为 整体 解决 方 
案 打 包销 售 ,主要 是 为 了 屏蔽 系统 安装 配置 的 复杂 性 。 

目前 VTL 技术 已 经 进入 主流 用 户 市 场 ,但 是 与 早期 的 市 场 情 况 相 比 用 户 的 需求 却 发 
生 了 变化 。 今 天 ,易于 部 署 和 使 用 、 能 够 改善 备份 性 能 并 且 减 少 物 理 磁 带 介质 管理 问题 等 虚 
拟 磁 带 库 特性 只 能 满足 用 户 最 基本 的 需求 。 所 以 虚拟 磁带 库 厂商 现在 需要 为 主流 用 户 提供 
更 先进 的 功能 ,以 适应 不 断 变 化 的 市 场 环境 。 


5.8.1 变化 中 的 虚拟 磁带 库 市 场 


改变 虚拟 磁带 库 市 场 环 境 的 因素 有 很 多 。 首 先是 因为 基础 技术 更 加 成 熟 ,VTL 厂商 已 
经 能 够 做 到 让 他 们 的 产品 适合 各 种 各 样 的 应 用 环境 ,并 且 能 够 从 客户 那里 获得 满意 的 评价 ; 
其 次 ,今天 的 虚拟 磁带 库 用 户 不 仅 了 解 VTL 技术 ,而 且 对 他 们 自己 在 数据 方面 的 需求 也 十 
分 明确 。 他 们 会 更 加 谨慎 地 看 待 厂 商 对 性 能 指标 的 宣传 ,例如 客户 会 关注 一 些 具 体 的 问题 : 
怎样 配置 系统 才能 实现 广告 宣传 的 吞吐 量 指标 ? 重复 数据 删除 的 比率 实测 能 达到 多 少 ? 

另 一 个 原因 是 备份 解决 方案 的 不 断 进 步 。 大 多 数 传统 备份 厂商 已 经 开始 支持 磁盘 到 磁 
盘 (D2D) 的 备份 ,同时 也 出 现 了 一 批 专 为 D2D 备份 定制 的 解决 方案 。 今 天 ,备份 厂商 敏锐 
地 意识 到 了 用 户 的 新 需求 : 追求 更 快 的 备份 速度 解决 备份 窗口 不 足 的 问题 ; @ 通 过 更 快 
的 数据 恢复 技术 提高 RTO(Recovery Time Objectives) 指 标 ; @ 使 用 容量 优化 技术 减少 数 
据 的 传输 量 和 存储 量 。 

许多 新 的 备份 产品 都 在 力争 满足 上 面 提 到 的 这 些 主要 需求 , 那 虚拟 磁带 库 厂 商 对 此 是 
如 何 反应 的 呢 ? 他 们 已 经 推出 一 批 新 的 功能 来 争取 那些 务实 的 潜在 用 户 ,这 无 疑 是 个 好 
消息 。 


5.8.2 用 户 的 需求 


ESG(Enterprise Strategy Group) 针 对 虚拟 磁带 库 的 用 户 做 了 一 份 调查 ,了 解 他 们 期 望 
虚拟 磁带 库 解 决 方案 中 有 哪些 特性 。 调 查 报告 列 出 了 几 个 用 户 最 关注 的 功能 : 重复 数据 删 
除 和 改进 虚拟 磁带 库 管理 两 项 高 居 榜 首 ; 紧 随 其 后 的 是 产品 扩展 能 力 、 数 据 恢复 能 力 和 性 
能 ;有 些 用 户 关注 容 灾 问题 ,希望 数据 能 够 导出 设备 之 外 保存 ,他 们 需要 在 VTL 后 端 连 接 
物理 磁带 设备 ;最 后 ,VTL 需要 支持 更 多 的 协议 (例如 在 大 型 机 上 使 用 的 FICON 和 
ESCON ,支持 以 太 网 上 的 iSCSD) 。 
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调查 显示 用 户 越 来 越 关注 VTL 设备 的 整体 功能 。 厂 商 已 经 开始 考虑 将 这 些 技术 纳入 
到 自己 的 产品 发 展 蓝 图 之 中 。 例 如 ,在 许多 解决 方案 里 多 个 VTL 之 间 实 现 数 据 复制 已 经 
成 为 一 个 基本 的 功能 特性 。 用 户 也 特别 关注 这 些 新 功能 是 否 能 够 在 自己 的 工作 流程 和 系统 
环境 中 使 用 。 他 们 感 兴趣 的 是 复制 是 否 可 以 有 多 个 目标 ? 数据 在 传输 过 程 中 是 否 可 以 加 
密 ? 是 否 有 智能 的 调度 策略 (在 非 繁忙 时 间 ) 或 传输 带宽 限制 功能 ? 哪些 技术 能 够 减少 数据 
传输 量 ? 


5.8.3 下 一 代 产 品 的 增强 特性 


1. 容量 和 性 能 的 可 扩展 能 力 

存储 容量 的 扩展 能 力 和 性 能 的 扩展 能 力 是 排名 最 高 的 两 项 用 户 需 求 ,而 且 不 分 伯仲 。 
某 些 早期 的 VTL 产品 在 设计 上 存在 瓶颈 ,它们 的 架构 并 没有 充分 考虑 备份 应 用 的 特点 ,也 
没有 估计 到 可 能 会 出 现 的 性 能 限制 。 有 时 候 为 了 减少 虚拟 磁带 库 的 压力 ,用 户 不 得 不 调整 
原 有 的 备份 进程 或 后 台 任 务 。 因 此 .下 一 代 虚 拟 磁 带 库 必 须 能 够 线性 增加 吞吐 性 能 ,以 解决 
备份 时 间 窗 口 不 足 的 压力 ,满足 恢复 时 间 指 标的 要 求 。 对 容量 的 限制 问题 也 是 一 样 , 设 备 必 
须 能 够 方便 地 进行 磁盘 的 扩容 。 

2. 容量 优化 

当 用 户 将 更 多 的 数据 备份 到 磁盘 介质 并 且 进行 长 期 保存 的 时 候 , 容 量 的 优化 能 力 就 会 
变 得 更 加 关键 ,比如 压缩 功能 和 重复 数据 删除 ,下 一 代 虚 拟 磁带 库 在 某 种 程度 上 必须 具备 以 
下 的 特性 ,才能 应 付 客户 对 容量 和 性 能 的 苛求 。 这 些 特性 包括 : 同时 在 多 个 虚拟 磁带 库 控 
制 器 之 间 实 现 数据 去 重 ; 能 够 根据 系统 负载 情况 关闭 去 重 功能 ;支持 实时 处 理 (联机 处 理 ) 或 
批 处 理 模式 (后 处 理 ) 下 的 数据 去 重 。 

3. 集中 管理 功能 

如 果 用 户 同 时 部 署 了 多 个 虚拟 磁带 库 ( 单 台 设备 容量 限制 导致 的 不 断 扩 容 ,或 一 开始 就 
是 多 台 的 设计 ) ,那么 就 可 能 带 来 一 些 意 想不到 的 管理 问题 。 集 中 管理 策略 和 多 VTL 设备 
的 集中 管理 视图 ,可 以 减轻 管理 的 负担 ,这 将 是 下 一 阶段 VTL 产品 的 一 个 重要 的 功能 
特性 。 

4. 灾难 恢复 

采用 D2D 备份 策略 所 面临 的 问题 是 当 遇 到 系统 故障 或 者 灾难 事件 时 ,如 何 保证 数据 的 
安全 。 当 前 最 好 的 办 法 是 在 装置 外 保存 一 份 备份 数据 的 介质 拷贝 。 通 常 ,VTL 厂商 采用 
“磁带 导出 ”的 命令 ,在 物理 磁带 上 做 一 份 虚拟 磁带 的 副本 ;或 者 通过 让 VTL 直接 管理 物理 
磁带 库 的 方法 ,在 备份 窗口 以 外 的 时 间 创 建 介质 副本 。 但 这 两 种 方法 都 不 能 很 好 地 满足 用 
户 要 求 , 因 为 备份 软件 无 法 维护 所 有 的 元 数据 ,也 无 法 对 副本 进行 控制 。 另 一 种 办 法 是 通过 
备份 软件 发 起 虚拟 磁带 到 物理 磁带 的 复制 ,这 意味 着 备份 软件 要 承担 额外 的 处 理 任务 ,数据 
流 也 必须 经 过 网 络 ( 而 这 看 起 来 根本 没有 必要 )。 下 一 代 虚 拟 磁带 库 能 够 用 更 有 效 的 方法 创 
建 VTL 介质 的 可 离线 副本 。 利 用 备份 软件 厂商 提供 的 API, 比 如 Symantec 公司 的 Veritas 
NetBackup 备份 产品 的 OpenStorage 编程 接口 ,虚拟 磁带 库 能 够 创建 从 虚拟 磁带 到 物理 磁 
带 或 者 到 第 二 个 VTL 设备 的 数据 副本 ,同时 还 能 确保 两 份 介质 的 管理 元 数据 保持 同步 。 
目前 的 虚拟 磁带 库 产品 已 经 具备 了 本 地 到 远程 在 两 个 VTL 之 间 实 现 复制 容 灾 的 功能 ,下 
一 代 虚 拟 磁 带 库 将 在 此 基础 上 再 前 进一步 ,用 户 可 以 根据 需要 灵活 地 选择 部 分 数据 进行 点 
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对 点 的 复制 ,而 且 会 支持 更 多 的 复制 拓扑 结构 ,如 一 对 一 、 多 对 一 以 及 双向 复制 。 

5. 对 iSCSI 的 支持 

随 着 iSCSI 性 能 的 改进 、 万 兆 以 太 网 络 的 普及 ,以 及 存储 厂商 不 断 增加 对 iSCSI 的 支 
持 , 都 在 推动 对 以 太 网 接口 产品 需求 的 增长 。 有 些 用 户 希 望 用 IP SAN 来 替代 FC SAN ,或 
者 作为 FC SAN 的 补充 ,他 们 就 会 选择 支持 iSCSI 接口 的 VTL 产品 。 

众所周知 ,企业 无 论 规模 大 小 都 要 面 对 灾 难 的 风险 ,所 以 必须 有 可 用 的 容 灾 数 据 , 并 且 
在 发 生 灾难 宕 机 的 情况 下 能 够 快速 地 启用 。 即 使 发 生 的 不 是 毁灭 性 的 灾难 ,但 是 如 果 不 加 
以 防范 ,仍然 可 能 付出 沉重 的 代价 。 对 于 容 灾 这 个 细 分 市 场 ,虚拟 磁带 库 也 是 一 个 很 好 的 解 
决 方案 。 

现在 ,我 们 兴奋 地 看 到 VTL 厂商 正在 努力 提升 自身 的 技术 能 力 以 应 对 市 场 挑战 ,比如 
将 重复 数据 删除 功能 纳入 到 产品 之 中 就 是 一 个 明显 的 迹象 。 而 作为 用 户 , 我 们 就 准备 好 去 
体验 下 一 代 的 虚拟 磁带 库 产 品 好 处 吧 。 


任务 拓展 


1. 什么 是 虚拟 磁带 库 ? 
2. 虚拟 磁带 库 的 优 缺 点 是 什么 ? 
3. 重复 数据 删除 的 优势 是 什么 ? 
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(Gy 任务 目标 
。 了 解 灾 备 技术 的 分 类 ; 
。 了 解 各 种 灾 备 技术 的 原理 和 适用 范围 ; 
。 了解 各 种 灾 备 技术 的 对 比 。 


(SD ms 


计算 机 系统 可 轻松 进行 复杂 工作 中 巨大 数据 量 的 处 理工 作 , 却 也 同样 因 其 保存 有 巨大 
数据 量 的 信息 而 存在 一 些 数据 安全 上 的 隐患 。 一 旦 因为 这 些 隐患 导致 数据 丢失 ,其 造成 的 
损失 几乎 无 法 通过 人 力 短 时 间 恢 复 。 


(三 
\a 一 项 目 描述 

聚 比 特 科技 有 限 公 司机 房 发 生 了 一 次 重大 事故 ,由 于 计算 机 病毒 感染 ,导致 机 房 部 分 服 
务 器 数据 大 量 丢失 ,给 公司 造成 了 巨大 的 影响 。 为 此 ,公司 领导 召集 各 部 门 紧急 开会 ,会 中 
其 余 不 表 , 针 对 技术 部 门 , 公 司 领 导 要 求 尽快 建立 灾 备 系统 解决 方案 ,用 来 应 对 未 来 类 似 数 
据 和 应 用 的 安全 隐患 。 


(项 目 分 析 

聚 比特 科技 有 限 公司 技术 部 已 确定 了 备份 介质 ,当然 是 需要 采用 数据 备份 软件 来 铺垫 
最 基础 的 备份 系统 。 但 数据 备份 仅仅 是 灾 备 系统 的 一 种 基础 方式 , 灾 备 系统 对 于 数据 和 应 
用 的 安全 还 有 各 个 级 别 和 技术 的 解决 方案 ,应 对 不 同 场景 下 的 灾难 。 如 何 选用 各 种 灾 备 技 
术 来 切实 满足 公司 当前 的 需要 ,又 符合 公司 的 需求 预算 ,就 需要 详细 了 解 各 种 技术 后 再 进行 
判断 。 


(站 项 目 突现 

聚 比特 科技 有 限 公司 技术 部 了 解 了 主流 的 灾 备 技术 ,发 现 各 种 灾 备 技术 都 能 在 自己 公 
司 找到 适合 的 配置 位 置 ,而 且 一 个 比 一 个 好 ,所 以 ,他 们 联系 了 灾 备 公司 说 明了 情况 ,并 进行 
了 前 期 询 价 。 然 而 拿 到 灾 备 公司 报价 后 .高 昂 的 价格 令 技术 部 大 吃 一 惊 ,其 远 远 超出 了 公司 
的 预算 。 至 此 ,他 们 才 明 白 更 高 技术 含量 的 灾 备 技术 同样 意味 着 价格 的 大 幅 增长 。 

在 进行 了 激烈 的 内 部 讨论 后 , 聚 比特 科技 有 限 公 司 技术 部 决定 先 搭建 灾 备 系统 的 基础 
架构 ,满足 现在 的 需求 。 然 后 再 根据 公司 未 来 的 发 展 .逐步 增 加 其 他 灾 备 技术 ,步步为营 , 稳 
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扎 稳 打 。 


6.1 灾 备 技术 介绍 


为 实现 灾 备 模式 所 确定 的 目标 ,应 采用 安全 ,可靠 的 灾 备 技术 和 方案 。 目 前 比较 成 熟 的 
灾 备 技术 主要 分 为 两 类 : 一 类 是 数据 备份 技术 , 另 一 类 是 数据 复制 技术 。 

数据 备份 技术 是 通过 专业 的 备份 软件 ,将 生产 数据 备份 成 归档 数据 文件 进行 保存 ,需要 
使 用 或 验证 备份 数据 时 ,再 通过 备份 软件 将 数据 文件 恢复 成 源 数据 ;基于 数据 备份 技术 的 灾 
备 方案 包括 本 地 备份 异地 保存 方案 和 远程 数据 备份 方案 。 

数据 复制 技术 是 将 生产 数据 直接 复制 到 灾 备 中 心 , 当 生产 中 心 发 生 灾难 需要 切换 到 灾 
备 中 心 时 , 灾 备 中 心 的 数据 直接 可 用 。 数 据 复制 技术 又 可 分 为 基于 智能 存储 设备 的 复制 技 
术 、 基 于 主机 的 复制 技术 、 基 于 数据 库 的 复制 技术 和 基于 存储 虚拟 化 的 复制 技术 ,如 图 6-1 
所 示 。 


本 地 备份 异地 存储 


传统 的 远程 备份 方案 


数据 备份 技术 








基于 主机 的 复制 技术 
卷 复制 技术 
基于 数据 库 的 复制 技术 
基于 智能 存储 设备 的 复制 技术 


基于 存储 虚拟 化 的 复制 技术 


、 带 内 管理 


图 6-1 灾 备 技术 分 类 示意 图 


由 于 通过 数据 备份 技术 备份 的 数据 不 能 直接 使 用 ,需要 恢复 后 才能 使 用 ,因此 该 技术 主 
要 适合 于 数据 级 灾 备 的 情况 。 而 通过 数据 复制 技术 复制 的 数据 可 直接 使 用 ,因此 该 技术 既 
可 适合 于 数据 级 灾 备 ,也 可 适合 于 应 用 级 灾 备 。 
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6.1.1 数据 备份 技术 


通过 专业 的 数据 备份 软件 ,结合 相应 的 硬件 和 存储 设备 ,对 数据 备份 进行 集中 管理 , 实 
现 自动 化 的 备份 文件 归档 以 及 灾难 恢复 等 。 在 灾难 恢复 时 ,需要 安装 相关 系统 。 基 于 数据 
备份 技术 的 灾 备 方案 主要 包括 两 种 : 一 是 本 地 介质 备份 ,异地 介质 存放 方案 ;二 是 基于 远程 
数据 备份 技术 的 灾 备 方案 。 


6.1.2 本 地 介质 备份 及 异地 介质 存放 方案 
1. 技术 描述 


生产 中 心 通过 备份 软件 按照 既定 的 备份 策略 将 数据 备份 到 本 地 磁带 库 上 ,在 通过 磁带 
库 备 份 数据 的 时 候 ,同时 备份 两 份 ,一 份 留 在 生产 中 心 ,一 份 运送 到 异 址 保存 ,以 用 于 灾难 时 


的 数据 恢复 ,如 图 6-2 所 示 。 


由 本 地 磁带 备份 设备 ; 








省 级 歼 据 处 理 中 心 
sa 本 地 备份 磁带 运输 
人 ) 异地 保存 地 点 
图 6-2 异地 备份 示意 图 
2. 资源 配置 要 求 


(1) 生产 中 心 需要 配置 磁带 库 、 备 份 服务 器 及 备份 软件 。 

(2) 生产 中 心 和 异 址 需要 存放 保存 磁 介质 的 专用 柜子 。 

(3) 将 介质 定期 运送 到 异地 。 

3. 方案 特点 

本 方案 的 优点 在 于 投资 小 ,只 需 考虑 磁带 运输 成 本 和 异 址 存放 磁带 的 场地 。 采 用 该 方 
案 需要 同时 考虑 以 下 问题 。 

(1) 该 方式 的 备份 过 程 和 恢复 过 程 都 较 复杂 ,需要 制定 严格 的 流程 进行 管理 。 

(2) 磁带 通常 是 在 非 生 产 时 段 进行 备份 .备份 数据 时 需要 考虑 延迟 。 

(3) 在 进行 数据 的 恢复 操作 时 必须 使 用 正确 的 磁带 。 因 此 存档 磁带 的 管理 工作 需要 按 
照 专业 ,规范 的 流程 严格 执行 。 

(4) 在 恢复 数据 库 的 时 候 , 需 按照 正确 的 事件 处 理 顺 序 执行 ,以 保证 能 恢复 到 数据 库 的 
当前 状况 。 

4. 适用 范围 

本 方案 适用 于 地 市 中 心 生产 数据 先进 行 本 地 磁带 备份 .再 运输 到 省 中 心 进行 磁带 保存 。 
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5. 主流 产品 
目前 比较 主流 的 备份 软件 包括 : Symantec Netbackup、IBM TSM、Bakbone NetVault、 
EMC Networker 等 。 


6.1.3 远程 数据 备份 方案 


远程 数据 备份 方案 与 本 地 介质 异地 存放 方案 的 主要 差别 在 于 前 者 是 通过 生产 中 心 与 灾 
备 中 心 之 间 的 IP 网络 进行 数据 远程 备份 ,而 后 者 是 通过 人 为 运输 的 方式 将 生产 中 心 本 地 的 
备份 介质 传送 到 灾 备 中 心 进行 保存 。 

对 于 生产 中 心 与 灾 备 中 心 之 间 具 有 IP 网 络 连 接 的 情况 ,可 采用 远程 数据 备份 方案 ,本 
方案 适用 于 地 市 中 心 将 生产 数据 通过 IP 专线 远程 备份 到 省 中 心 的 情况 。 远 程 数据 备份 方 
案 可 分 为 传统 远程 数据 备份 方案 和 基于 重复 数据 删除 技术 的 备份 方案 。 

传统 远程 备份 方案 与 基于 重复 数据 删除 技术 的 备份 方案 的 主要 差别 是 前 者 只 是 将 生产 
数据 的 备份 归档 数据 传输 到 灾 备 中 心 , 由 于 备份 数据 传输 前 没有 进行 数据 优化 ,因此 需 占用 
较 大 的 网 络 带宽 ,备份 效率 较 低 ; 而 后 者 是 在 传输 前 通过 重复 数据 删除 技术 识别 备份 数据 的 
宛 余 数据 段 ,并 将 其 删除 ,达到 优化 效果 ,经 过 宛 余 数据 删除 后 的 备份 数据 量 将 大 大 降低 , 因 
此 可 以 大 大 减少 对 网 络 带 宽 的 占用 。 同 时 重复 数据 删除 技术 还 可 通过 加 密 备份 和 定期 备份 
验证 等 方式 增加 安全 性 ,从 而 实现 了 快速 ,高效 .可 靠 的 数据 保护 。 

重复 数据 删除 技术 既 适 用 于 两 点 之 间 的 数据 备份 (如 生产 中 心 与 灾 备 中 心 ) ,也 适用 于 
多 点 之 间 的 数据 备份 (如 多 个 地 市 向 省 中 心 备份 ), 当 添加 存储 节点 时 可 达到 性 能 的 线性 增 
长 ,不 会 对 重复 数据 消除 效率 和 系统 性 能 造成 影响 。 同 时 为 保证 数据 的 有 效 性 和 完整 性 ,该 
技术 还 可 以 定期 进行 数据 的 完整 性 检验 。 

根据 备份 数据 处 理 的 对 象 不 同 ,重复 数据 删除 技术 可 分 为 目的 端 重复 数据 删除 技术 和 
源 端 重复 数据 删除 技术 。 

下 面 介绍 传统 的 远程 数据 备份 方案 。 

(1) 技术 描述 

传统 的 远程 数据 备份 方案 主要 是 采用 备份 管理 软件 通过 生产 中 心 与 灾 备 中 心 的 IP 网 
络 将 生产 数据 直接 备份 到 灾 备 中 心 ,其 备份 效果 是 生产 中 心 和 灾 备 中 心 均 有 生产 数据 的 备 
份 。 当 生产 数据 遭 到 破坏 时 ,可 用 生产 中 心 的 备份 数据 进行 恢复 ; 当 生产 中 心 发 生 灾难 时 ， 
可 用 灾 备 中 心 的 备份 数据 进行 恢复 ,如 图 6-3 所 示 。 

该 方案 的 实现 方式 是 生产 中 心 通过 备份 管理 服务 器 发 起 备份 操作 指令 ,将 生产 数据 备 
份 到 本 地 物理 或 虚拟 带 库 上 ,完成 本 地 备份 操作 ;生产 中 心 备份 管理 服务 器 通过 IP 实现 对 
灾 备 中 心 备份 服务 器 的 作业 管理 及 调度 。 通 过 广域网 将 生产 中 心 物理 或 虚拟 带 库 上 的 备份 
数据 传递 到 灾 备 中 心 的 物理 带 库 上 ; 灾 备 中 心 通过 备份 软件 将 数据 备份 到 磁带 上 ,完成 备份 
操作 。 

(2) 资源 配置 要 求 

a 在 生产 中 心 配置 备份 管理 服务 器 ,并 在 备份 管理 服务 器 上 部 署 备份 管理 软件 ,备份 
管理 服务 器 通过 HBA 卡 与 光纤 交换 机 进行 连接 ,以 保证 备份 管理 服务 器 能 通过 SAN 网 访 
问 到 存储 设备 。 

@ 生产 中 心 可 配置 虚拟 带 库 , 也 可 配置 物理 带 库 。 其 中 虚拟 带 库 可 通过 两 种 方式 连接 
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图 6-3 远程 数据 备份 方案 示意 图 


备份 服务 器 : 一 是 通过 FC 端口 连接 到 光纤 交换 机 实现 与 备份 服务 器 进行 连接 ;二 是 通过 
iSCSI 端口 与 备份 服务 器 通过 IP 端口 进行 连接 。 物 理 带 库 则 一 般 通过 FC 或 SCSI 端口 与 
备份 服务 器 进行 连接 。 

@ 在 灾 备 中 心 配置 物理 带 库 和 备份 服务 器 ,物理 带 库 通 过 FC 端口 与 备份 服务 器 进行 
连接 ,同时 在 灾 备 中 心 部 署 备份 软件 , 灾 备 中 心 的 备份 服务 器 将 按照 生产 中 心 备份 管理 服务 
器 的 作业 调度 策略 将 生产 数据 备份 到 灾 备 中 心 的 物理 带 库 上 。 

(3) 方案 特点 

本 方案 是 通过 两 个 备份 流 实现 生产 中 心 与 灾 备 中 心 的 远程 备份 : 一 是 本 地 被 分 流 , 即 
将 生产 数据 通过 本 地 备份 软件 备份 到 生产 中 心 的 物理 带 库 或 虚拟 带 库 上 ;二 是 将 生产 中 心 
的 物理 带 库 或 虚拟 带 库 上 的 数据 通过 备份 策略 备份 到 灾 备 中 心 的 物理 带 库 上 。 

按照 本 方案 ,生产 中 心 可 采用 虚拟 带 库 ,也 可 采用 物理 带 库 作 为 备份 设备 ,而 灾 备 中 心 
采用 物理 带 库 作为 备份 设备 ;由 于 虚拟 带 库 具有 磁盘 读 取 快 ,备份 效率 高 恢复 时 间 短 等 特 
点 ,因此 采用 虚拟 带 库 时 ,可 提高 数据 本 地 备份 和 恢复 的 速度 。 但 虚拟 带 库 是 将 硬盘 作为 数 
据 备 份 的 物理 介质 ,因此 不 具备 数据 的 可 移动 长 期 保存 的 特点 ,而 物理 带 库 是 将 磁带 作为 数 
据 备 份 的 物理 介质 ,磁带 备份 后 可 存放 到 单独 的 空间 进行 长 期 保存 ,因此 各 地 可 根据 自身 的 
实际 情况 选择 合适 的 备份 设备 。 

(4) 适用 范围 

本 方案 适用 于 生产 数据 较 少 且 备 份 网 络 带 宽 较 高 的 信息 系统 备份 。 

(5) 可 选 备份 软件 

根据 本 方案 的 备份 要 求 . 可 选用 Symantec Netbackup、IBM TSM 、Bakbone NetVault 
Backup、EMC Networker 等 备份 软件 实现 备份 。 
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6.2 基于 目的 端 重复 数据 删除 技术 的 备份 方案 介绍 


6.2.1 技术 描述 


该 方案 是 利用 虚拟 带 库 本 身 具有 的 重复 数据 删除 技术 识别 备份 到 虚拟 带 库 上 的 归档 备 
份 数 据 文件 的 元 余数 据 段 ,并 进行 删除 ,以 减少 数据 备份 量 , 提 高 备份 效率 。 生 产 中 心 与 灾 
备 中 心 之 间 的 数据 备份 是 通过 两 端 虚拟 带 库 之 间 的 数据 备份 实现 的 ,生产 中 心 的 虚拟 带 库 
将 元 余数 据 段 删除 后 通过 IP 网 络 传 输 到 灾 备 中 心 的 虚拟 带 库 上 ,如 图 6-4 所 示 。 








生产 中 心 灾 甸 中 心 
磁盘 阵列 
物理 磁带 库 









SAN 交 换 机 
虚拟 带 库 


服务 器 
iSCSI 











广域网 








图 6-4 基于 虚拟 带 库 数 据 备份 方案 示意 图 (1) 


如 果 灾 备 中 心 有 备份 介质 保存 的 需求 , 则 可 在 灾 备 中 心 再 部 署 一 台 物 理 带 库 , 灾 备 中 心 
虚拟 带 库 将 备份 的 数据 通过 离线 的 方式 备份 到 物理 带 库 上 ,如 图 6-5 所 示 。 


生产 中 心 








灾 备 中 心 
磁盘 阵列 
物理 带 库 。 虚拟 带 库 


SAN 交 换 机 


iSCSI 























图 6-5 基于 虚拟 带 库 数据 备份 方案 示意 图 (2) 
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6.2.2 资源 配置 要 求 


(1) 在 生产 中 心 配置 备份 服务 器 ,并 在 备份 服务 器 上 部 署 备 份 软件 ,备份 服务 器 通过 
HBA 卡 与 光纤 交换 机 进行 连接 ,以 保证 备份 服务 器 能 通过 SAN 网 访问 到 生产 数据 的 存储 
设备 。 

(2) 在 生产 中 心 配置 虚拟 带 库 , 虚 拟 带 库 可 通过 两 种 方式 连接 备份 服务 器 : 一 是 通过 
FC 端口 连接 到 光纤 交换 机 实现 与 备份 服务 器 进行 连接 ;二 是 通过 iSCSI 端口 与 备份 服务 器 
通过 IP 端口 进行 连接 。 

(3) 在 灾 备 中 心 配 置 虚拟 带 库 ,虚拟 带 库 通过 iSCSI 端口 与 本 地 的 IP 交换 机 进行 连 
接 ; 如 果 要 实现 异地 介质 备份 ,可 在 灾 备 中 心 配置 物理 带 库 ,通过 离线 备份 的 方式 实现 灾 备 
中 心虚 拟 带 库 与 物理 带 库 之 间 的 离线 数据 备份 。 


6.2.3 技术 特点 


(1) 整个 备份 过 程 由 有 三 个 备份 流 组 成 的 : 一 是 生产 中 心 生 产 的 数据 到 虚拟 带 库 的 本 
地 备份 ;二 是 生产 中 心 与 灾 备 中 心虚 拟 带 库 之 间 通 过 IP 网 络 的 远程 备份 ;三 是 灾 备 中 心虚 
拟 带 库 到 物理 带 库 的 离线 备份 (如 果 有 异地 介质 存放 ); 由 于 备份 数据 在 传输 前 已 删除 了 元 
余数 据 段 ,因此 减少 了 数据 复制 量 ( 数 据 量 可 减少 至 1/20 一 1/50) ,降低 网 络 带宽 资源 和 备 
份 设备 的 能 耗 。 

(2) 生产 中 心 和 灾 备 中 心 的 虚拟 带 库 之 间 可 通过 加 密 方式 进行 传输 ,实现 数据 备份 的 
安全 性 。 

(3) 可 实现 多 点 间 的 数据 复制 。 


6.2.4 适用 范围 
本 方案 适用 于 地 市 中 心 直 接 将 数据 备份 到 省 中 心 ,再 由 省 中 心 备份 到 本 地 磁带 上 。 
6.2.5 可 选 技术 


(1) 本 地 数据 备份 软件 可 选择 Symantec Netbackup、Bakbone NetVault、IBM TSM、 
EMC Networker。 

(2) 虚拟 带 库 及 重复 数据 删除 技术 可 选择 EMC EDL/DataDomain、 昆 腾 DXi 系列 、 
SUN STK Sepaton 。 


6.3 基于 源 端 重复 数据 删除 技术 的 备份 方案 介绍 


6.3.1 技术 描述 


基于 源 端 重复 数据 删除 技术 的 备份 方案 主要 是 删除 源 生产 数据 文件 的 元 余数 据 段 。 其 
主要 实现 方式 是 在 生产 中 心 将 生产 原 数据 文件 传输 到 本 地 的 备份 存储 池内 ,存储 池 将 数据 
文件 拆 分 成 小 的 数据 段 ,通过 段 级 重复 数据 删除 后 ,备份 管理 软件 只 将 包含 新 数据 或 修改 数 
据 的 部 分 备份 到 灾 备 中 心 的 备份 存储 池 中 ,备份 到 灾 备 中 心 后 的 文件 主要 部 分 保持 不 变 ,不 
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需要 重新 备份 。 从 而 实现 了 段 级 别 增 量 备份 。 除 此 以 外 ,该 技术 还 可 以 实现 每 日 全 备份 恢 
复 以 减少 恢复 时 间 ,如 图 6-6 所 示 。 
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图 6-6 基于 源 端 重复 数据 删除 技术 的 备份 示意 图 


为 节省 设备 投资 ,并 达到 备份 效果 ,生产 中 心 的 存储 池 和 灾 备 中 心 的 备份 存储 池 可 采用 
低 端 磁盘 阵列 。 

采用 这 种 技术 进行 数据 备份 时 ,生产 中 心 的 备份 管理 服务 器 可 采用 自动 备份 和 手动 备 
份 两 种 方式 , 灾 备 中 心 备份 存储 池 中 的 数据 还 可 由 备份 服务 器 定时 归档 迁移 至 磁带 库 ,并 保 
存在 磁带 上 ,以 保证 灾 备 中 心 具 有 可 用 于 长 期 保存 的 归档 数据 。 


6.3.2 资源 配置 要 求 


(1) 在 生产 中 心 配置 管理 服务 器 ,用 于 备份 管理 和 存储 池 管 理 , 管 理 服务 器 通过 HBA 
卡 与 光纤 交换 机 进行 连接 ,以 保证 其 能 通过 SAN 网 访问 到 生产 数据 的 存储 设备 ,并 能 将 数 
据 通过 SAN 网 存放 在 存储 池上 。 

(2) 在 生产 中 心 可 配置 低 端 磁盘 阵列 作为 存储 池 , 存 储 池 通 过 FC 或 IP 端口 与 备份 服 
务 器 进行 连接 。 

(3) 灾 备 中 心 配 置 管理 设备 ,该 设备 按照 既定 调度 策略 接收 备份 数据 ,并 将 其 存放 在 备 
份 存储 池 中 。 

(4) 在 灾 备 中 心 可 配置 低 端 磁盘 阵列 作为 备份 存储 池 ,用 于 存放 消 重 后 的 备份 数据 , 备 
份 存 储 池 通过 FC 或 IP 端口 与 管理 设备 进行 连接 。 

(5) 为 实现 异地 介质 备份 ,可 在 灾 备 中 心 配置 物理 带 库 ,通过 备份 服务 器 将 备份 存储 池 
中 的 备份 数据 归档 到 磁带 上 。 

提示 : 对 于 生产 中 心 和 灾 备 中 心 的 管理 服务 器 和 存储 池 , 可 采用 一 台 专 用 的 存储 设备 ， 
该 设备 同时 具有 备份 管理 、 存 储 池 管 理 和 存储 池 的 功能 。 


6.3.3 技术 特点 


(1) 由 于 生产 数据 在 传输 前 已 进行 了 元 余数 据 段 删除 ,因此 减少 了 数据 复制 量 (数据 量 
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可 减少 至 1/500) ,降低 网 络 带宽 资源 (网 络 带宽 可 节省 至 1/50) 和 备份 设备 的 能 耗 。 
(2) 当 数 据 恢复 时 ,只 需 将 灾 备 中 心 的 消 重 数据 直接 进行 恢复 ,从 而 减少 恢复 次 数 。 
(3) 提供 备份 数据 加 密 功能 ,确保 备份 数据 的 安全 。 
(4) 通过 存储 池 管理 和 完善 的 报表 功能 ,将 生产 中 心 的 存储 池 和 灾 备 中 心 的 备份 存储 
池 统 一 管理 起 来 ,降低 了 设备 和 介质 管理 的 复杂 度 。 
6.3.4 适用 范围 
本 方案 适用 于 地 市 中 心 与 省 中 心 网 络 带宽 较 低 的 情况 。 
6.3.5 可 选 技术 


重复 数据 删除 技术 可 选择 EMC Avamar、Symantec Netbackup PureDisk 。 





6.4 基于 智能 存储 设备 的 数据 复制 技术 


6.4.1 技术 描述 


基于 智能 存储 设备 的 数据 复制 技术 采用 先进 的 智能 存储 复制 软件 ,通过 光纤 直 连 、 
SDH、ATM 或 IP 网 络 等 在 灾 备 中 心 与 生产 中 心 建立 磁盘 镜像 连接 ,实现 数据 的 7X24 小 
时 远程 实时 复制 。 

智能 存储 数据 复制 采用 基于 存储 控制 器 的 复制 技术 ,通过 存储 系统 微 码 提供 的 数据 复 
制 功能 ,将 源 磁盘 数据 复制 至 目标 磁盘 。 智 能 存储 数据 复制 技术 与 主机 平台 无 关 , 可 实现 异 
构 平 台 环 境 下 的 数据 远程 备份 。 

远程 存储 数据 复制 技术 按 请 求 复制 的 主机 是 否 需要 远程 镜像 站 点 的 确认 信息 ,又 可 分 
为 同步 远程 复制 和 异步 远程 复制 。 

同步 复制 技术 是 指 通 过 远程 复制 软件 ,将 本 地 数据 以 完全 同步 的 方式 复制 到 异地 ,每 一 
本 地 的 I/O 事务 均 需 等 待 远 程 复 制 的 完成 确认 信息 , 才 了 予以 释放 。 同 步 镜像 使 远程 拷贝 总 
能 与 本 地 机 要 求 复制 的 内 容 相 匹配 。 当 主 站 点 出 现 故 障 时 ,用 户 的 应 用 程序 切换 到 备份 的 
替代 站 点 后 ,被 复制 的 远程 副本 可 以 保证 业务 继续 执行 而 没有 数据 的 丢失 。 但 它 存在 往返 
传播 造成 延 时 较 长 的 缺点 ,只 限于 在 相对 较 近 的 距离 上 应 用 。 

异步 复制 技术 保证 在 更 新 远程 存储 视图 前 完成 向 本 地 存储 系统 的 基本 1/O 操作 ,而 由 
本 地 存储 系统 提供 给 请 求 镜像 主机 的 1/O 操作 完成 确认 信息 。 远 程 的 数据 复制 是 以 后 台 
同步 的 方式 进行 的 ,这 使 本 地 系统 性 能 受到 的 影响 很 小 ,传输 距离 长 (可 达 1000 千 米 以 上 )， 
对 网 络 带 宽 要 求 小 。 但 是 ,许多 远程 的 从 属 存储 子 系统 的 写 没有 得 到 确认 , 当 某 种 因素 造成 
数据 传输 失败 ,可 能 出 现 数据 一 致 性 问题 。 为 了 解决 这 个 问题 ,目前 大 多 采用 延迟 复制 的 技 
术 ( 本 地 数据 复制 均 在 后 台 日 志 区 进行 ), 即 在 确保 本 地 数据 完好 无 损 后 进行 远程 数据 更 新 。 


6.4.2 技术 架构 及 特点 


基于 智能 存储 的 数据 复制 技术 具有 高 效 快速 的 优点 ,能 较 好 地 保证 数据 的 完整 性 和 一 
致 性 ,数据 的 复制 备份 过 程 不 占用 主机 资源 ,操作 控制 比较 简单 。 但 由 于 基于 存储 的 数据 复 
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制 技术 对 于 主 、 备 份 中 心 之 间 的 网 络 条 件 ( 稳 定性 、 带 宽 、 链 路 空间 距离 ) 要 求 较 苛刻 。 对 于 

带宽 情况 不 理想 的 远 距 离 数 据 传输 需要 较 长 的 时 间 。 较 高 的 网 络 带宽 要 求 尤 其 是 长 途 线路 

会 大 大 增加 日 常 运营 成 本 。 同 时 基于 智能 存储 的 复制 技术 开放 性 较 差 ,不 同 厂 家 的 存储 设 
备 系 统一 般 不 能 配合 使 用 ,不 利于 投资 保护 。 

针对 全 省 大 集中 的 灾 备 体系 架构 ,该 技术 也 有 对 应 的 三 种 架构 , 即 A 一 B 模 式 、A 一 B 一 C 
模式 和 A 一 B/A 一 C 模式 ,其 逻辑 架构 如 下 : 


6.4.3 生产 一 同城 复制 模式 ( 即 A 一 B 模式 ) 


生产 中 心 与 同城 灾 备 中 心 采 用 基于 磁盘 阵列 的 同步 复制 模式 ,这 种 复制 模式 在 向 远程 
镜像 磁盘 卷 中 写 和 数据 时 ,复制 过 程 如 下 。 

(1) 接收 生产 中 心 主机 的 写 1/O 操作 。 

(2) 将 数据 写 到 生产 中 心 本 地 磁盘 阵列 的 缓存 中 。 

(3) 通过 链 路 将 其 送 到 同城 灾 备 中 心 磁盘 阵列 的 缓存 中 。 

(4) 同城 磁盘 阵列 向 生产 磁盘 阵列 发 送 数据 接收 确认 信号 。 

(5) 修改 磁道 表 。 

(6) 通知 生产 主机 1/O 操作 完成 。 

如 图 6-7 所 示 , 这 种 模式 需要 跟踪 生产 中 心 每 一 个 磁盘 卷 的 变化 情况 ,并 将 变化 量 同步 
复制 到 同城 灾 备 中 心 ,因此 对 网 络 带 宽 的 要 求 比较 高 。 
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6-7 ”同城 灾 备 中 心 基于 磁盘 阵列 示意 图 


1. 生产 一 同城 及 生产 一 异地 ( 即 A 一 B 及 A 一 C 模式 ) 
生产 中 心 将 数据 同步 复制 到 同城 灾 备 中 心 的 同时 ,通过 广域网 专线 将 数据 以 异步 的 方 
式 复 制 到 异地 灾 备 中 心 ,其 复制 过 程 如 下 。 
(1) 接收 生产 中 心 主 机 写 MO。 
| 
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(2) 将 数据 写 到 生产 中 心 本 地 磁盘 阵列 的 缓存 中 。 

(3) 向 生产 主机 发 回 设备 结束 信号 。 

(4) 通过 链 路 将 其 送 到 同城 灾 备 中 心 磁盘 阵列 的 缓存 中 。 

(5) 同城 磁盘 阵列 向 生产 磁盘 阵列 发 送 数据 接收 确认 信号 修改 磁道 表 。 

如 图 6-8 所 示 , 异 步 复 制 的 网 络 带宽 要 求 取决 于 两 端 磁盘 阵列 缓存 的 大 小 .RPO 时 间 
要 求 和 数据 变化 量 等 因素 ,应 根据 实际 环境 的 测量 来 确定 线路 带宽 ,但 由 于 业务 的 实时 性 要 
求 ,随时 都 有 可 能 产生 变化 的 磁盘 卷 ,因此 也 需要 进行 专线 连接 ,为 避免 数据 复制 的 单 点 故 
障 ,建议 在 同城 灾 备 中 心 和 异地 灾 备 中 心 也 申请 一 条 专线 作为 生产 中 心 到 异地 灾 备 中 心 的 
备份 复制 线路 ,保证 中 心 复制 的 高 可 用 性 。 
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磁盘 阵列 











6-8 ”两 地 三 中 心 灾 备 示意 图 (A 一 B.A 一 C 复制 模式 ) 


2. 生产 一 同城 一 异地 ( 即 A 一 B 一 C 模式 ) 

生产 中 心 将 数据 同步 复制 到 同城 灾 备 中 心 后 .同城 灾 备 中 心 通过 广域网 专线 将 数据 以 
异步 的 方式 复制 到 异地 灾 备 中 心 ,复制 过 程 同上 。 这 种 方式 的 数据 复制 不 是 由 生产 中 心 发 
起 ,而 是 由 同城 灾 备 中 心 发 起 ,因此 这 种 复制 技术 的 好 处 是 异步 复制 对 生产 中 心 业务 运行 的 
影响 比较 小 。 

如 图 6-9 所 示 ,在 这 种 模式 下 .同城 与 异地 灾 备 中 心 之 间 申 请 一 条 专线 用 于 异步 复制 ， 
将 同城 灾 备 中 心 的 数据 异步 复制 到 异地 灾 备 中 心 。 
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图 6-9 ”两 地 三 中 心 灾 备 示意 图 (A 一 B 一 C 复制 模式 ) 


6.4.4 资源 配置 要 求 


生产 中 心 和 灾 备 中 心 的 资源 配置 要 求 如 下 。 


(1) 生产 中 心 和 灾 备 中 心 各 配置 同 构 并 且 支持 相同 的 远程 数据 复制 的 存储 设备 。 
(2) 在 生产 中 心 和 灾 备 中 心 分 别 部 署 远 程 存储 复制 软件 。 
(3) 由 于 该 技术 与 主机 无 关 , 因 此 数据 复制 通过 SAN 网 络 实现 ,同步 一 般 要 求 采 用 光 
纤 链 路 ,异步 一 般 采 用 专线 连接 ,同步 比 异步 要 求 的 带宽 高 。 


(4) 网 络 线路 选择 方式 如 下 。 


@ 生产 一 同城 复制 模式 适用 于 地 市 或 省 生产 中 心 通过 光纤 或 专线 连接 同城 灾 备 中 心 ， 
如 果 采 用 同步 复制 技术 ,应 采用 光纤 连接 ;如 果 采 用 异步 复制 技术 ,应 采用 专线 连接 ;对 于 同 
城 数据 级 灾 备 模式 , 则 生产 中 心 可 采用 一 条 物理 线路 ( 裸 光纤 或 专线 ) 连 接 灾 备 中 心 ,用 于 生 
产 中 心 与 同城 灾 备 中 心 之 间 的 数据 复制 ;对 于 同城 应 用 级 灾 备 模式 , 则 生产 中 心 与 同城 灾 备 


中 心 应 采用 裸 光 纤 十 波 分 复 用 设备 进行 连接 。 


@ 对 于 异地 数据 级 灾 备 模式 ,由 于 异地 灾 备 中 心 与 生产 中 心 相 距 较 远 ,租用 光纤 费用 太 
高 ,因此 一 般 采 用 专线 实现 生产 中 心 或 同城 灾 备 中 心 与 异地 灾 备 中 心 之 间 的 异步 数据 复制 。 


@ 网 络 带宽 计算 


最 小 带宽 三 平均 数据 变化 量 证 RPO 二 系数 


其 中 系数 三 有 效 带 宽 二 线路 带宽 ,一 般 为 0. 3 一 0. 4。 
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6.4.5 适用 范围 


(1) 对 于 地 市 集中 情况 ,可 采用 同城 数据 级 或 应 用 级 灾 备 模式 。 
(2) 对 于 省 中 心 ,可 采用 同城 数据 级 或 应 用 级 灾 备 模式 ,以 及 异地 数据 级 灾 备 模式 。 


6.4.6 主流 技术 


基于 智能 存储 设备 复制 技术 主要 包括 EMC SRDF/MirrorView、HDS TrueCopy/ 
HUR IBM PPRC、NetApp SnapMirror .HP Continuous Access 等 。 


6.4.7 实施 步骤 


基于 存储 的 数据 复制 技术 的 灾 备 系统 较 复杂 ,其 实施 过 程 周 期 较 长 ,实施 的 部 分 环节 需 
要 生产 中 心 的 配合 ,对 生产 中 心 的 运营 维护 有 一 定 影响 ,应 避 开 业务 繁忙 期 进行 项 目 实施 作 
业 。 项 目 实施 的 大 致 步骤 如 下 。 

(1) 根据 选用 的 存储 设备 数据 复制 技术 和 生产 系统 对 数据 的 时 间 点 要 求 ,进行 前 期 
论证 。 

(2) 在 生产 中 心智 能 存储 设备 上 采集 实际 生产 状态 数据 ,作为 存储 规划 基本 参数 。 

(3) 根据 设 定数 据 量 和 复制 操作 时 间 窗 口 对 数据 复制 需要 的 电子 线路 类 型 和 带宽 进行 
规划 。 

(4) 采购 与 所 选 数 据 复制 技术 兼容 的 存储 设备 ,根据 生产 系统 要 求 进行 设备 初始 化 及 
全 量 数据 同步 。 

(5) 生产 与 灾 备 两 端 存储 根据 数据 复制 技术 进行 配置 策略 设置 等 操作 。 

(6) 测试 存储 设备 间 数 据 复制 策略 是 否 达 到 设计 要 求 。 

(7) 测试 生产 系统 数据 存储 设备 与 灾 备 数据 存储 设备 的 切换 。 

(8) 测试 灾 备 应 用 系统 与 灾 备 数据 存储 设备 的 读 写 等 应 用 系统 功能 。 

(9) 通过 测试 后 ,投入 试 运行 。 

(10) 试 运行 正常 后 转 入 正式 运行 。 





6.5 基于 数据 库 的 数据 复制 技术 


6.5.1 技术 描述 


基于 数据 库 的 数据 复制 技术 利用 的 是 数据 库 系统 所 提供 的 日 志 备份 和 恢复 机 制 ,在 生 
产 中 心 正 常 工作 的 同时 产生 归档 日 志文 件 (Archived Log) 或 重 做 日 志 不 断 地 传送 到 灾 备 中 
心 ,并 且 利 用 这 些 日 志文 件 在 灾 备 中 心 上 连 续 进 行 恢复 (Recover) 操 作 , 以 保持 灾 备 系统 与 
生产 系统 的 一 致 。 当 生产 中 心 发 生 故 障 时 ,使 用 备份 的 日 志文 件 在 灾 备 中 心 恢 复生 产 中心 
的 数据 。 

通过 使 用 基于 数据 库 软 件 复制 技术 .保证 远程 数据 库 的 复制 。 生 产 中 心 主机 安装 数据 
库 同步 软件 的 客户 端 和 数据 库 代 理 , 通 过 搭建 的 网 络 环境 与 灾 备 中 心 数据 库 同步 软件 的 服 
174 


第 6 章 ”数据 灾 备 与 恢复 技术 





务 器 端 通信 ,按照 定义 的 规则 实现 整 库 级 、 用 户 级 、 表 级 日志 级 的 数据 同步 。 在 生产 中 心 的 
生产 服务 器 上 部 署 数据 库 同步 软件 的 客户 端 和 数据 库 代 理 , 可 以 和 灾 备 中 心 的 数据 库 同步 
软件 服务 器 端 实现 1 对 多 模式 的 远程 数据 复制 ,如 图 6-10 所 示 。 
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6-10 基于 数据 库 的 两 地 三 中 心 示 意图 (数据 库 复 制 模式 ) 


6.5.2 资源 配置 要 求 


(1) 灾 备 中 心 可 配置 与 生产 中 心 异 构 的 存储 设备 ,但 其 性 能 和 容量 应 与 生产 中 心 相当 。 
(2) 在 生产 中 心 和 灾 备 中 心 部 署 基 于 数据 库 的 复制 软件 。 
(3) 生产 中 心 和 灾 备 中 心 通过 IP 网 络 ( 一 般 是 专线 ) 进 行 实现 数据 复制 。 


6.5.3 技术 特点 


基于 数据 库 的 数据 复制 技术 具有 高 效 快 速 的 优点 ,能 较 好 地 保证 数据 的 完整 性 和 一 致 
性 ,对 于 生产 中 心 和 灾 备 中 心 之 间 的 网 络 条 件 (稳定 性 、 带 宽 、 链 路 空间 距离 ) 要 求 也 较 低 。 
但 数据 的 复制 过 程 占用 主机 资源 ,对 生产 系统 有 一 定 影响 ,对 于 交易 较 频繁 .生产 数据 库 压 
力 较 大 的 应 用 系统 ,选择 该 方式 时 需要 经 过 充分 的 论证 。 另 外 ,该 复制 模式 只 是 针对 数据 库 
数据 ,对 于 文件 系统 数据 等 其 他 类 型 的 数据 , 则 需要 另行 考虑 其 他 数据 复制 方案 ,因此 最 终 
形成 的 综合 方案 较 复 杂 。 该 技术 对 数据 库 部 署 及 管理 能 力 提出 了 较 高 的 要 求 ,为 项 目 实施 
和 日 常 运行 维护 带 来 了 一 定 的 不 便 。 
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6.5.4 主要 实施 步骤 


基于 数据 库 的 数据 复制 技术 的 灾 备 系统 ,其 实施 过 程 周期 较 长 ,实施 的 部 分 环节 需要 生 
产 中 心 的 配合 ,对 生产 中 心 的 运营 维护 有 一 定 影响 ,应 避 开 业务 繁忙 期 进行 项 目 实施 作业 。 

项 目 实施 的 大 致 步骤 如 下 。 

(1) 根据 生产 系统 对 数据 的 时 间 点 要 求 ,进行 前 期 论证 。 

(2) 根据 日 志 数 据 量 和 复制 操作 时 间 窗 口 对 数据 复制 需要 的 电子 线路 类 型 和 带宽 就 行 
规划 。 

(3) 生产 与 灾 备 两 端 主 机 及 数据 库 根 据 数据 复制 技术 进行 配置 .策略 设置 等 操作 。 

(4) 测试 数据 复制 策略 是 否 达 到 设计 要 求 。 

(5) 测试 生产 系统 数据 库 与 灾 备 数据 库 的 切换 。 

(6) 通过 测试 后 ,投入 试 运行 。 

(7) 试 运行 正常 后 转 和 人 正式 运行 。 


6.5.5 适用 范围 
数据 库 复制 技术 一 般 适 用 于 应 用 级 灾 备 模式 。 
6.5.6 主流 技术 


基于 数据 库 的 数据 复制 技术 ,主流 的 技术 有 Oracle Dataguard、Quest SharePlex、 
GoldenGate .DSG RealSync、Sybase Replication Server 等 多 种 可 选 技术 。 





6.6 基于 主机 的 数据 复制 方案 介绍 


在 这 类 数据 复制 方案 中 ,主要 有 两 种 方案 : 一 是 数据 卷 镜像 方案 ; 二 是 数据 卷 复制 
方案 。 


6.6.1 数据 卷 镜像 方案 


1. 技术 描述 

数据 卷 镜像 方案 属于 基于 主机 的 复制 技术 的 一 种 ,这 种 方式 的 原理 是 在 生产 中 心 和 灾 
备 中 心 之 间 有 光纤 链 路 ,并 且 在 生产 中 心 的 所 有 需要 复制 的 服务 器 上 部 署 专业 存储 管理 软 
件 , 在 灾 备 中 心 部 署 相 应 的 存储 系统 和 主机 ,利用 专业 存储 管理 软件 将 生产 中 心 存储 系统 和 
灾 备 中 心 的 存储 系统 组 成 一 个 镜像 存储 系统 ,在 生产 中 心 的 主机 发 生 一 个 写 操作 时 ,利用 专 
业 存 储 管理 软件 的 镜像 功能 ,将 这 个 写 操作 通过 光纤 链 路 同时 传输 至 灾 备 中 心 的 存储 系统 ， 
在 两 个 中 心 的 存储 系统 都 完成 写 操作 时 后 ,此 操作 才 真 正 完成 ,这 种 数据 卷 镜 像 方 案 可 以 保 
证 生产 中 心 数据 * 零 丢失 ”(RPO 二 0) ,如 图 6-11 所 示 。 

由 于 采用 了 生产 中 心 和 灾 备 中 心 存储 系统 镜像 的 模式 ,因此 在 两 中 心 任何 一 方 的 存储 
系统 出 现 故障 (或 性 能 低下 ) 时 ,为 了 不 影响 生产 中 心 的 业务 系统 的 正常 运转 ,专业 存储 软件 
会 将 故障 存储 (或 性 能 低下 的 存储 ) 自动 剔除 出 镜像 系统 ,而 由 正常 一 方 的 存储 系统 独自 承 
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担 业务 ,这 种 由 一 方 存储 系统 故障 造成 的 灾难 ,其 灾难 接管 工作 是 由 专业 存储 管理 软件 自动 
进行 的 ,无 须 人 工 干涉 , 即 无 停机 时 间 (RTO 二 0) ,如 图 6-12 所 示 。 
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图 6-11 基于 数据 卷 镜 
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图 6-12 基于 数据 卷 镜 


像 示意 图 (2) 


在 生产 中 心 的 主机 发 生 故 障 时 ,业务 会 发 生 中 断 , 此 时 如 需 将 应 用 切换 至 灾 备 中 心 , 则 
可 以 采用 集群 管理 软件 的 灾难 切换 功能 ,将 生产 中 心 的 应 用 在 很 短 的 时 间 内 自动 切换 至 灾 
备 中 心 的 主机 上 ,以 保证 业务 的 连续 性 ,如 图 6-13 所 示 。 


2. 资源 配置 要 求 


(1) 生产 中 心 和 灾 备 中 心 需 具备 光纤 通路 。 
(2) 灾 备 中 心 存储 系统 与 生产 中 心 存储 系统 性 能 相近 ,但 无 须 同 品牌 。 
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6-13 ”基于 数据 卷 镜像 示意 图 (3) 


(3) 两 中 心 距离 不 超过 100 公里 。 

(4) 在 生产 中 心 相应 的 服务 器 上 需要 配置 Symantec Storage Foundation 软件 。 

(5) 如 果 需 要 灾难 自动 切换 功能 , 则 需要 在 生产 中 心 和 灾 备 中 心 的 相应 服务 器 上 均 配 
置 Symantec Storage Foundation HA/DR 软件 。 

(6) 网 络 带宽 需求 三 平均 数据 增 量 X (峰值 持续 时 间 一 RPO)/ (峰值 数 据 增 量 x 峰值 持 
续 时 间 一 RPO)。 

3. 适用 范围 

数据 卷 镜像 灾 备 解决 方案 是 生产 -同城 复制 模式 ( 即 A 一 B 模式 ), 适 用 于 对 RPO 及 
RTO 要 求 较 高 .实时 性 要 求 较 强 的 系统 (如 医保 系统 ) ,针对 这 些 系 统 , 数 据 卷 镜像 灾 备 解决 
方案 可 以 提供 “ 零 数据 丢失 ”和 "一 键 式 切换 ”解决 方案 以 保证 其 业务 的 连续 性 。 

4. 技术 特点 

(1) 优点 

OO 零 数据 丢失 : 采用 数据 卷 镜像 灾 备 解决 方案 可 以 实现 生产 中 心 数据 与 灾 备 中 心 数 
据 完全 一 致 , 即 不 存在 数据 丢失 的 可 能 性 , 即 RPO=0。 

@ 存储 系统 故障 自动 剔除 : 在 生产 中 心 或 灾 备 中 心 任何 一 端 存储 系统 出 现 故障 时 , 专 
业 存储 管理 软件 均 自动 剔除 故障 存储 系统 ,不 会 造成 业务 中 断 , 即 RTO==0。 

@ 在 配置 集群 软件 的 前 提 下 .灾难 切换 时 间 短 ,切换 操作 简易 : 在 主机 发 生 故 障 或 整 
个 生产 中 心 失效 时 ,可 以 采用 专业 存储 管理 软件 的 “一 键 式 切换 ”功能 ,将 生产 中 心 的 业务 迅 
速 自动 切换 至 灾 备 中 心 ,以 保证 业务 的 连续 性 。 

@ 硬件 选择 余地 较 大 : 与 基于 智能 存储 系统 的 灾 备 方案 不 同 , 数 据 卷 镜 像 灾 备 方案 中 
生产 中 心 和 灾 备 中 心 存储 系统 无 须 同 品牌 。 

(2) 缺点 

对 生产 中 心 和 灾 备 中 心 的 链 路 带宽 和 稳定 性 有 一 定 要 求 , 由 于 采用 数据 卷 镜像 方式 , 因 
此 需要 两 中 心 数据 链 路 是 光纤 通道 链 路 。 
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5. 实施 步骤 

数据 卷 镜像 灾 备 解决 方案 的 实施 相对 比较 简单 ,一 般 无 须 更 改 任何 硬件 环境 ,而 只 需要 
在 生产 中 心 和 灾 备 中 心安 装 相应 的 专业 存储 管理 软件 ,并 配置 两 中 心 的 存储 镜像 系统 及 “一 
键 式 切换 ?系统 即 可 。 项 目 实施 的 大 致 步骤 如 下 。 

(1) 根据 生产 系统 对 数据 的 时 间 点 要 求 , 进 行 前 期 论证 。 

(2) 对 生产 系统 进行 全 备份 (建议 ) 。 

(3) 在 生产 中 心 和 灾 备 中 心 的 服务 器 上 安装 专业 存储 管理 软件 。 

(4) 停止 业务 访问 (有 停机 时 间 )。 

(5) 自动 转换 数据 卷 格 式 。 

(6) 启动 业务 系统 (恢复 业务 运行 ) 。 

(7) 在 线 配 置 生产 中 心 和 灾 备 中 心 镜像 存储 系统 ,自动 进行 数据 初始 化 同步 。 

(8) 在 配置 集群 软件 的 情况 下 ,可 在 线 配 置 “ 一 键 式 切换 ”系统 。 

(9) 利用 专业 存储 管理 软件 的 “仿真 模拟 演练 ”功能 进行 灾 备 演练 (可 在 线 做 ,无 须 中 断 
务 、 也 无 须 中 断 灾 备 系统 )。 

(10) 通过 测试 后 ,投入 试 运行 。 

(11) 试 运行 正常 后 转 人 正式 运行 。 


6.6.2 数据 卷 复制 方案 


1. 技术 描述 

数据 卷 复 制 方案 是 另 一 种 常见 的 基于 主机 复制 技术 ,与 数据 卷 镜像 方式 相同 的 是 ,数据 
卷 复制 解决 方案 同样 是 利用 专业 存储 软件 进行 容 灾 数据 复制 的 ,而 与 其 不 同 的 是 ,数据 卷 复 
制 解决 方案 采用 的 是 IP 网 络 而 非 光纤 链 路 进行 复制 ,其 复制 方式 大 多 采用 异步 复制 方式 ， 
而 其 灾 备 距离 不 受 限 制 ,可 以 实现 超 远 距离 的 灾 备 。 

同样 需要 在 生产 中 心 和 灾 备 中 心 的 服务 器 上 安装 专业 存储 管理 软件 ,并 配置 对 应 的 数 
据 卷 的 复制 关系 ,数据 初始 化 完毕 后 ,生产 中 心 主机 每 接收 到 一 个 写 操作 ,都 会 同时 通过 IP 
链 路 向 灾 备 中 心 的 主机 传送 相同 的 写 操作 , 灾 备 中 心 的 主机 将 会 把 这 个 写 操作 在 灾 备 中 心 
的 存储 系统 上 完成 ,如 图 6-14 所 示 。 

事实 上 ,数据 卷 复制 灾 备 解决 方案 也 是 一 种 很 好 的 集中 灾 备 解决 方案 ,可 以 实现 高 达 
32 个 逻辑 数据 卷 对 一 个 逻辑 数据 卷 复制 的 功能 , 即 支持 多 数据 中 心 向 一 个 灾 备 中 心 容 灾 的 
功能 。 

无 论 是 生产 中 心 的 主机 还 是 存储 器 发 生 故 障 时 ,业务 都 会 发 生 中 断 , 此 时 如 需 将 应 用 切 
换 至 灾 备 中 心 , 则 可 以 采用 专业 存储 管理 软件 中 的 灾难 切换 功能 ,将 生产 中 心 的 应 用 在 很 短 
的 时 间 内 自动 切换 至 灾 备 中 心 的 主机 上 ,以 保证 业务 的 连续 性 ,如 图 6-15 所 示 。 

2. 资源 配置 要 求 

(1) 生产 中 心 和 灾 备 中 心 只 需 具备 IP 通路 。 

(2) 灾 备 中 心 存 储 系统 与 生产 中 心 存储 系统 无 须 同 品 牌 , 灾 备 中 心 存储 系统 档次 可 以 
低 于 生产 中 心 存储 系统 。 

(3) 灾 备 中 心 主机 操作 系统 类 型 与 生产 中 心 主机 操作 系统 类 型 一 致 。 

(4) 在 生产 中 心 和 灾 备 中 心 相应 的 服务 器 上 配置 卷 管理 软件 。 
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6-14 ”基于 数据 卷 复制 示意 图 (1) 
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图 6-15 ”基于 数据 卷 复制 示意 图 (2) 














(5) 如 果 需 要 灾难 自动 切换 功能 , 则 需要 在 生产 中 心 和 灾 备 中 心 的 相应 服务 器 上 均 配 
置 卷 管理 软件 。 

(6) 网 络 带宽 需求 二 平均 数据 增 量 X (峰值 持 续 时 间 一 RPO) 二 (峰值 数据 增 量 X 峰值 
持续 时 间 一 RPO)。 

3. 适用 范围 

数据 卷 复制 灾 备 解决 方案 适用 于 “生产 一 同城 (A 一 B) ,生产 一 异地 (A 一 B, A 一 C)” 和 
“生产 一 同城 一 异地 (A 一 B 一 C) 及 多 对 一 模式 ”数据 卷 复制 灾 备 解决 方案 可 以 提供 “ 秒 级 
RPO” 和 “一 键 式 切换 ”解决 方案 以 保证 其 业务 的 连续 性 。 
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针对 未 实现 省 级 集中 的 社保 中 心 ,数据 卷 复制 解决 方案 可 以 提供 集中 式 多 对 一 的 数据 
级 灾 备 解决 方案 ,并 支持 无 颖 升级 至 应 用 级 灾 备 解决 方案 。 

4. 技术 特点 

(1) 优点 

@ 秒 级 RPO: 采用 数据 卷 复 制 灾 备 解决 方案 可 以 实现 生产 中 心 数据 与 灾 备 中 心 数据 
基本 一 致 ,在 带宽 足够 的 前 提 下 ,RPO 趋 近 于 0。 

@ 在 配置 集群 管理 软件 的 前 提 下 ,灾难 切换 时 间 短 ,切换 操作 简易 : 在 主机 发 生 故障 
或 整个 生产 中 心 失效 时 ,可 以 采用 专业 存储 管理 软件 的 “一 键 式 切换 ”功能 ,将 生产 中 心 的 业 
务 迅 速 自动 切换 至 灾 备 中 心 ,以 保证 业务 的 连续 性 。 

@ 硬件 选择 余地 较 大 。 与 基于 智能 存储 系统 的 灾 备 方案 不 同 ,数据 卷 复制 灾 备 方案 中 
生产 中 心 和 灾 备 中 心 存储 系统 无 须 同 品牌 。 

@ 工作 在 数据 卷 级 别 上 ,对 任何 的 数据 库 文件 系统 和 第 三 方 应 用 均 可 无 缝 支持。 

@ 用 于 灾 备 目的 的 数据 平时 受到 保护 ,保证 关键 时 刻 发 挥 作 用 。 

性 能 好 ,只 占用 系统 资源 的 3% 一 5%。 

@ 数据 复制 技术 使 用 IP 网 络 , 对 底层 的 网 络 设备 没有 任何 特殊 要 求 。 

(2) 缺点 

灾 备 中 心服 务 器 与 生产 中 心服 务 器 的 操作 系统 需要 一 致 , 即 在 生产 中 心 有 几 类 操作 系 
统 , 则 在 灾 备 中 心 至 少 每 类 操作 系统 要 配置 一 台 主 机 ,同一 操作 系统 的 主机 可 以 是 多 对 一 模 
式 进 行 从 生产 中 心 到 灾 备 中 心 的 复制 。 


6.6.3 主要 实施 步骤 


数据 卷 镜像 灾 备 解决 方案 的 实施 相对 比较 简单 ,一 般 无 须 更 改 任何 硬件 环境 ,而 只 需要 
在 生产 中 心 和 灾 备 中 心安 装 相 应 的 专业 存储 管理 软件 ,并 配置 两 中 心 的 存储 镜像 系统 及 “一 
键 式 切换 ”系统 即 可 。 项 目 实施 的 大 致 步骤 如 下 。 

(1) 根据 生产 系统 对 数据 的 时 间 点 要 求 , 进 行 前 期 论证 。 

(2) 对 生产 系统 进行 全 备份 (建议 ) 。 

(3) 在 生产 中 心 和 灾 备 中 心 的 服务 器 上 安装 专业 存储 管理 软件 。 

(4) 停止 业务 访问 (有 停机 时 间 )。 

(5) 自动 转换 数据 卷 格式 。 

(6) 建立 从 生产 中 心 数 据 卷 到 灾 备 中 心 相应 数据 卷 的 复制 关系 ,自动 进行 初始 化 数据 
同步 。 

(7) 启动 业务 系统 (恢复 业务 运行 )。 

(8) 在 配置 群集 软件 的 情况 下 ,可 在 线 配置 “一 键 式 切换 ?系统 。 

(9) 利用 专业 存储 管理 软件 的 “仿真 模拟 演练 功能 进行 灾 备 演练 (可 在 线 做 ,无 须 中 断 
业务 .也 无 须 中 断 灾 备 系 统 ) 。 

(10) 通过 测试 后 ,投入 试 运行 。 

(11) 试 运行 正常 后 转 入 正式 运行 。 

主流 技术 主要 以 Symantec Storage Foundation 数据 卷 镜 像 和 卷 复 制 技术 为 代表 。 
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6.7 基于 存储 虚拟 化 的 数据 复制 技术 介绍 


虚拟 存储 (Storage Virtualization) 就 是 把 多 个 存储 介质 模块 通过 一 定 的 手段 集中 管理 
起 来 ,所 有 的 存储 模块 在 一 个 存储 池 中 得 到 统一 管理 ,并 提供 大 容量 、 高 速 传输 功能 。 

存储 虚拟 化 是 将 实际 的 物理 存储 实体 与 存储 的 逻辑 表示 进行 分 离 , 并 通过 ZONE 的 方 
式 将 逻辑 卷 (或 称 虚 卷 ) 分 配给 应 用 服务 器 ,而 不 用 关心 其 数据 是 在 哪个 物理 存储 实体 上 。 
逻辑 卷 与 物理 实体 之 间 的 映射 关系 ,是 可 由 安装 在 应 用 服务 器 上 的 卷 管 理 软 件 ( 称 为 主机 级 
虚拟 化 ) ,存储 子 系统 的 控制 器 ( 称 为 存储 级 虚拟 化 )、 加 入 SAN 的 专用 装置 ( 称 为 网 络 级 虚 
拟 化 ) 来 控制 和 管理 的 。 

存储 虚拟 化 复制 技术 的 主要 功能 是 实现 生产 中 心 与 灾 备 中 心 之 间 的 迎 辑 卷 复制 ,从 而 
屏蔽 了 两 中 心 物 理 存储 设备 的 差异 。 为 实现 基于 逻辑 卷 的 复制 , 需 在 生产 中 心 和 灾 备 中 心 
配置 虚拟 化 存储 管理 装置 ,该 装置 可 将 虚拟 化 存储 网 络 划分 成 一 个 个 的 虚拟 卷 , 既 保证 本 地 
应 用 服务 器 可 以 访问 ,同时 装置 还 可 通过 生产 中 心 与 灾 备 中 心 之 间 的 IP 网 络 实现 虚拟 逻辑 
卷 的 复制 。 

按照 虚拟 化 存储 管理 装置 的 部 署 和 管理 方式 可 分 为 三 种 模式 : 一 是 带 外 数据 、 带 外 管 
理 模式 ;二 是 带 内 数据 、 带 外 管理 模式 ;三 是 带 内 数据 、 带 内 管理 模式 。 


6.7.1 模式 一 : 带 外 数据 、 带 外 管理 模式 


1. 技术 描述 

虚拟 存储 管理 装置 连接 在 SAN 网 络 的 旁 路 ,生产 中 心 通过 应 用 服务 器 或 SAN 交换 机 
上 的 虚拟 化 端口 对 写 入 的 生产 数据 进行 拆 分 ,在 应 用 数据 进行 写 操作 时 ,应 用 服务 器 或 
SAN 交换 机 上 的 虚拟 化 端口 截取 这 些 写 和 操作 ,并 把 该 写 人 操作 在 继续 其 正常 写 和 人 物理 存 
储 系统 的 同时 并 行 地 复制 到 本 地 的 虚拟 化 存储 管理 装置 上 ,虚拟 化 存储 管理 装置 在 接收 到 
上 述 数 据 之 后 进行 压缩 打包 ,并 通过 SAN 路 由 器 的 IP 端口 复制 到 灾 备 中 心 的 虚拟 化 存储 
装置 中 。 

对 虚拟 存储 管理 装置 的 管理 可 通过 IP 方式 进行 ,虚拟 存储 管理 装置 发 生 故障 时 ,不 影 
响应 用 服务 器 对 物理 存储 设备 的 访问 ,管理 平台 对 该 装置 的 管理 不 影响 生产 业务 系统 的 性 
能 ,如 图 6-16 所 示 。 

2. 资源 配置 要 求 

(1) 生产 中 心 与 灾 备 中 心 通过 专线 进行 连接 。 

(2) 生产 中 心 与 灾 备 中 心 可 采用 异 构 存 储 设备 。 

(3) 生产 中 心 和 灾 备 中 心 配置 虚拟 化 存储 管理 装置 ,连接 在 各 中 心 SAN 交换 机 的 旁 路 
上 ;并 在 虚拟 化 存储 管理 装置 上 配置 虚拟 卷 复制 软件 。 

(4) 虚拟 化 存储 管理 装置 的 管理 平台 连接 在 本 地 IP 网 络 交换 机 上 ,通过 IP 网 实现 对 
该 装置 的 管理 。 

3. 技术 特点 

(1) 虚拟 化 存储 管理 装置 通过 旁 路 接 入 生产 中 心 和 灾 备 中 心 的 SAN 中 ,生产 数据 
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图 6-16 基于 存储 虚拟 化 的 数据 复制 示意 图 (1) 


可 通过 应 用 服务 器 或 SAN 交换 机 的 端口 进行 拆 分 ,该 装置 的 故障 不 会 影响 生产 业务 
系统 。 

(2) 对 虚拟 化 存储 管理 装置 的 管理 通过 IP 方式 实现 ,不 占用 SAN 网 络 的 资源 ,不 影响 
生产 数据 复制 的 性 能 。 

(3) 复制 到 灾 备 中 心 的 逻辑 卷 可 直接 被 灾 备 中 心 备份 应 用 服务 器 使 用 。 

(4) 支持 多 点 虚拟 化 复制 , 即 多 个 生产 中 心 的 异 构 存 储 向 同一 个 灾 备 中 心 集中 存储 进 
行 复 制 。 

4. 主流 技术 

主流 技术 为 EMC Recover Point、Falcon NSS/CDP。 


6.7.2 模式 二 : 带 内 数据 、 带 外 管理 模式 


1. 技术 描述 

虚拟 存储 管理 装置 连接 在 SAN 网 络 中 ,应 用 服务 器 在 SAN 网 络 只 能 通过 虚拟 存储 管 
理 装置 访问 虚拟 卷 。 应 用 服务 器 通过 虚拟 存储 管理 装置 对 物理 存储 进行 访问 ,同时 虚拟 存 
储 管理 装置 可 将 生产 中 心 的 逻辑 卷 通 过 网 络 镜像 到 灾 备 中 心 的 虚拟 存储 管理 装置 中 。 

对 虚拟 存储 管理 装置 的 管理 可 通过 IP 方式 进行 .虚拟 存储 管理 装置 发 生 故 障 时 ,不 影 
响应 用 服务 器 对 物理 存储 设备 的 访问 ,管理 平台 对 该 装置 的 管理 不 影响 生产 业务 系统 的 性 
能 ,如 图 6-17 所 示 。 

2. 资源 配置 要 求 

(1) 生产 中 心 与 灾 备 中 心 通过 专线 进行 连接 。 

(2) 生产 中 心 与 灾 备 中 心 可 采用 异 构 存 储 设备 。 

(3) 生产 中 心 和 灾 备 中 心 配置 虚拟 化 存储 管理 装置 ,连接 在 各 中 心 的 SAN 交换 机 上 ， 
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图 6-17 基于 存储 虚拟 化 的 数据 复制 示意 图 (2) 


并 在 虚拟 化 存储 管理 装置 上 配置 虚拟 卷 管理 及 卷 镜 像 软件 。 

(4) 虚拟 化 存储 管理 装置 的 管理 平台 连接 在 本 地 IP 网 络 交换 机 上 ,通过 IP 网 实现 对 
该 装置 的 管理 。 

3. 技术 特点 

(1) 虚拟 化 存储 管理 装置 接 入 生产 中 心 和 灾 备 中 心 的 SAN 中 ,由 于 应 用 服务 器 通 
过 该 装置 进行 数据 的 读 写 和 逻辑 卷 复制 ,因此 该 装置 的 故障 不 会 影响 生产 业务 系统 。 

(2) 对 虚拟 化 存储 管理 装置 的 管理 通过 IP 方式 实现 ,不 占用 SAN 网 络 的 资源 ,不 影响 
生产 数据 复制 的 性 能 。 

(3) 复制 到 灾 备 中 心 的 逻辑 卷 可 直接 被 灾 备 中 心 备份 到 应 用 服务 器 中 使 用 。 

(4) 支持 多 点 虚拟 化 复制 , 即 多 个 生产 中 心 的 异 构 存 储 向 同一 个 灾 备 中 心 集中 存储 进 
行 复制 。 

4. 主流 技术 

主流 技术 为 [BM San Volume Controller、LSI SVM。 


6.7.3 模式 三 : 带 内 数据 、 带 内 管理 模式 


1. 技术 描述 

虚拟 存储 管理 装置 连接 在 SAN 网 络 中 ,应 用 服务 器 通过 SAN 网 络 只 能 通过 虚拟 存储 
管理 装置 访问 虚拟 卷 。 虚 拟 存储 管理 装置 通过 SAN 网 络 进行 管理 ,虚拟 存储 管理 装置 发 
生 故 障 时 ,会 影响 正常 的 生产 业务 。 在 这 种 方式 下 .虚拟 存储 管理 装置 既 用 于 应 用 服务 器 对 
虚拟 卷 的 访问 ,也 可 实现 生产 中 心 与 灾 备 中 心 之 间 的 复制 。 同 时 对 虚拟 存储 管理 装置 的 管 
理 将 影响 生产 业务 和 数据 复制 的 性 能 。 
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对 虚拟 存储 管理 装置 的 管理 可 通过 IP 方式 进行 ,虚拟 存储 管理 装置 发 生 故 障 时 ,不 影 

响应 用 服务 器 对 物理 存储 设备 的 访问 ,管理 平台 对 该 装置 的 管理 不 影响 生产 业务 系统 的 性 
能 如 图 6-18 所 示 。 
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6-18 ”基于 存储 虚拟 化 的 数据 复制 示意 图 (3) 


2. 资源 配置 要 求 

(1) 生产 中 心 与 灾 备 中 心 通过 专线 进行 连接 。 

(2) 生产 中 心 与 灾 备 中 心 可 采用 异 构 存 储 设备 。 

(3) 生产 中 心 和 灾 备 中 心 配置 虚拟 化 存储 管理 装置 ,连接 在 各 中 心 的 SAN 交换 机 上 ， 
并 在 虚拟 化 存储 管理 装置 上 配置 虚拟 卷 管 理 及 卷 镜像 软件 。 

(4) 虚拟 化 存储 管理 装置 的 管理 平台 连接 在 SAN 网 络 交 换 机 上 ,通过 SAN 网 实现 对 
该 装置 的 管理 。 

3. 技术 特点 

(1) 虚拟 化 存储 管理 装置 接 人 生产 中 心 和 灾 备 中 心 的 SAN 中 ,由 于 应 用 服务 器 通过 该 
装置 进行 数据 的 读 写 和 逻辑 卷 复制 ,因此 该 装置 的 故障 不 会 影响 生产 业务 系统 。 

(2) 对 虚拟 化 存储 管理 装置 的 管理 通过 SAN 方式 实现 ,占用 SAN 网 络 的 资源 ,对 生产 
数据 复制 的 性 能 有 影响 。 

(3) 复制 到 灾 备 中 心 的 逻辑 卷 可 直接 被 灾 备 中 心 备份 应 用 服务 器 使 用 。 

(4) 支持 多 点 虚拟 化 复制 , 即 多 个 生产 中 心 的 异 构 存 储 向 同一 个 灾 备 中 心 集中 存储 进 
行 复制 。 

4. 主流 技术 

主流 技术 为 DataCore。 
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6.8 灾 备 技术 对 比 表 


灾 备 技术 对 照 表 见 表 6-1。 









































表 6-1 灾 备 技术 对 比 表 
数据 复制 技术 
特点 数据 备份 技术 
基于 存储 虚拟 化 | ”基于 主机 。 | 基于 智能 存储 设备 | ”基于 数据 库 
基于 虚拟 化 存储 基于 数据 库 
基于 逻辑 卷 的 数 | 基于 磁盘 系统 的 实 基于 备份 软件 
实现 方式 | 管理 装置 的 实时 LOG 的 复制 
各 枚 时 和 实时 | 据 实 时 复制 技术 | 时 复制 技术 0 的 定时 备份 
在 生产 中 心 和 灾 | 在 生产 中 心 和 灾 | 在 生产 中 心 和 灾 备 | 在 生产 中 心 和 灾 | 在 生产 中 心 或 
备 中 心 的 SAN | 备 中 心 的 应 用 服 | 在 - 灾 备 中 心 部 署 
系统 架构 中 心 的 磁盘 阵列 上 | 备 中 心 部 署 数据 
网 络 中 部 署 虚拟 | 务 器 上 安装 复制 | 沾 必 国 于 可 卫 列 上 | 第 汪 必 带 江 下 据 | 备份 服务 器 及 
化 存储 管理 装置 | 软件 备份 软件 
数据 复制 不 占用 
主机 资源 | 主机 资源 ,对 主 | 数据 复制 占用 主 | 数据 复制 不 占用 主 | 数据 复 抽 占用 一 | 思 这 和信 对 于 
机 访问 存储 性 能 | 机 资源 机 资源 定 的 主机 资源 “| 机 
有 一 定 的 影响 
支持 模式 | 异步 ,定点 .多 点 | 由 上 蜡 步 定 | 同步, 异步 ,定点 | 异步 ,定点 .多 点 | 定点 
RPO | 0 至 数 分 钟 ”| 0 至 数 分 钟 ”| 0 至 数 分 名 数 分 钟 至 1 小 时 | 1 天 至 数 天 
RTO | 低 于 1 小 时 | 低 于 30 分 钟 ”| 低 于 1 小 时 低 于 30 分钟 。 | 数 小 时 至 1 天 
和 制 数据 | 数据 库 文 件 | 数据 库 ` 文 件 | 数据库, 文件 数据 库 文件 
卷 镜像 对 带宽 要 对 带宽 要 求 较 
网 络 带宽 | 对 带宽 要 求 较 低 | 求 较 高 , 卷 复 制 | 对 带宽 要 求 高 。 | 对 带宽 要 求 较 低 | 低 (根据 复制 
对 带宽 要 求 低 频率 而 定 ) 
需要 在 应 用 服务 | 需要 在 应 用 服务 | 需要 磁盘 数据 复制 在 应 用 服务 器 
和 器 上 安装 虚拟 卷 | 器 上 安装 卷 管理 | 软件 及 协议 转换 ele 上 安装 代理 服 
管理 软件 软件 设备 务 器 
结合 相关 的 广 域 
切换 复杂 ,需要 | 需要 进行 备份 
系统 切换 | 系统 切换 相对 | 集群 软件 ,可 实 | 存储 系统 切换 灵活 | 熟悉 数据 库 工 | 数据 的 恢复 ， 
简单 现 系 统 的 自动 切 2 0 
换 和 接管 
实施 工作 有 一 定 | 实施 工作 有 一 定 实施 工作 有 一 定 | 实施 工作 对 生 
实施 难度 | 难度 ,对 生产 系 | 难度 ,对 生产 系 | 实施 过 程 复杂 “| 难度 ,对 生产 系 | 产 系统 影响 
统 有 一 定 影响 “| 统 有 一 定 影响 统 有 一 定 影响 ”| 最 小 
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任务 拓展 


. 什么 是 结构 化 和 非 结 构 化 数据 ? 

. 简 述 以 信息 为 中 心 的 存储 架构 相对 于 以 服务 器 为 中 心 的 架构 的 优势 。 
. 虚拟 化 的 数据 中 心 与 传统 数据 中 心 相 比 有 哪些 优势 ? 

. 调查 存储 和 管理 非 结构 化 数据 面临 的 问题 。 


性 oo 
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【四 任务 目标 
。 了 解 什么 是 虚拟 化 ; 
。 了 解 虚拟 化 技术 的 架构 分 类 ; 
。 了 解 主流 虚拟 化 技术 ; 
。 了 人 解 虚拟 化 的 问题 和 发 展 趋势 。 


(F 项 目 背 景 

随 着 计算 机 硬件 和 应 用 的 高 速 发 展 ,硬件 和 软件 的 性 能 不 匹配 度 越 来 越 高 ,通常 普通 应 
用 无 法 消耗 服务 器 资源 ,造成 硬件 资源 大 量 浪费 。 而 部 分 大 型 应 用 对 资源 的 需求 又 无 法 由 
单 台 服务 器 满足 。 随 着 这 种 矛盾 的 不 断 加 剧 ,虚拟 化 技术 的 更 新 和 发 展 已 变 得 刻不容缓 。 
(号 
Na 项 目 描 述 

随 着 聚 比特 科技 有 限 公 司 业务 的 不 断 发 展 , 需 要 的 应 用 系统 越 来 越 多 ,而 为 这 些 应 用 系 
统 搭建 的 服务 器 也 快速 增长 。 导 致 机 房 逐 渐 腾 肿 ,不 仅 导致 机 房 维护 难度 越 来 越 大 ,而且 公 
司 为 服务 器 等 硬件 设备 的 采购 耗材 能源 消 耗 等 投入 的 资金 也 越 来 越 多 。 
(项 分 析 

聚 比特 科技 有 限 公司 技术 部 面 对 公 司 的 困难 ,开始 考虑 如 何 更 有 效 地 利用 自身 的 硬件 
资源 ,减少 资源 浪费 ,降低 公司 运营 成 本 。 经 过 了 解 ,他 们 发 现 虚拟 化 系统 非常 符合 公司 现 
阶段 面临 的 情况 。 
人 项 目 实现 

聚 比特 科技 有 限 公司 通过 虚拟 化 建设 .大 大 地 提高 了 硬件 的 利用 率 , 降 低 了 管理 难度 ， 
并 且 可 以 淘汰 部 分 老 旧 设 备 ,减少 机 房 的 安全 隐患 。 


7.1 虚拟 化 技术 概述 


7.1.1 虚拟 化 的 定义 
虚拟 化 (Virtualization) 是 一 个 广义 的 术语 ,简单 来 说 ,是 指 计算 机 相关 模块 在 虚拟 的 基 
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础 上 而 不 是 真实 .独立 的 物理 硬件 基础 上 运行 ,这 种 把 有 限 的 固定 资源 根据 不 同 需求 进行 重 
新 规划 以 达到 最 大 利用 率 , 从 而 实现 简化 管理 .优化 资源 
等 的 解决 方案 , 叫 作 虚拟 化 技术 。 虚 拟 化 使 用 软件 的 方法 
重新 定义 并 划分 IT 资源 ,可 以 实现 IT 资源 的 动态 分 配 、 
灵活 调度 . 跨 域 共享 ,提高 IT 资源 利用 率 , 使 IT 资源 能 够 
真正 成 为 社会 基础 设施 ,如 图 7-1 所 示 ,满足 各 行 各 业 中 
灵活 多 变 的 应 用 需求 。 

以 下 是 一 些 业界 标准 组 织 对 虚拟 化 的 定义 。 

“虚拟 化 是 以 某 种 用 户 和 应 用 程序 都 可 以 很 容易 从 中 
获 益 的 方式 来 表示 计算 机 资源 的 过 程 ,而 不 是 根据 这 些 资 
源 的 实现 ,地理 位 置 或 物理 包装 的 专 有 方式 来 表示 它们 。 
换 句 话说 , 它 为 数据 .计算 能 力 、 存 储 资源 以 及 其 他 资源 提 
供 了 一 个 逻辑 视图 ,而 不 是 物理 视图 。”(Jonathan Eunice， 
Illuminata Inc) 

“虚拟 化 是 表示 计算 机 资源 的 逻辑 组 (或 子 集 ) 的 过 
程 ,这 样 就 可 以 用 从 原始 配置 中 获 益 的 方式 访问 它们 。 这 种 资源 的 新 虚拟 视图 并 不 受 现实 、 
地 理 位 置 或 底层 资源 的 物理 配置 的 限制 。”(Wikipedia) 

“虚拟 化 : 对 一 组 类 似 资 源 提供 一 个 通用 的 抽象 接口 集 ,从 而 隐藏 属性 和 操作 之 间 的 差 
异 , 并 允许 通过 一 种 通用 的 方式 来 查看 并 维护 资源 。”(Open Grid Services Architecture 
Glossary of Terms) 

虚拟 化 概念 并 不 是 新 概念 。 早 在 20 世纪 70 年 代 , 大 型 计算 机 就 一 直 在 同时 运行 多 个 
操作 系统 实例 ,每 个 实例 也 彼此 独立 。 直 到 最 近 ,. 软 硬件 方面 的 进步 才 使 得 虚拟 化 技术 逐渐 
出 现在 基于 行业 标准 的 中 低 端 服务 器 上 。 

然而 ,虚拟 化 技术 的 内 涵 远 远 不 止 于 虚拟 服务 器 。 目 前 ,已 经 有 了 网 络 虚拟 化 .CPU 虚 
拟 化 和 存储 虚拟 化 等 技术 。 如 果 在 一 个 更 广泛 的 环境 中 或 从 更 高 级 的 抽象 角度 来 思考 虚拟 
化 技术 ,虚拟 化 技术 就 变 成 了 一 个 非常 强大 的 概念 ,可 以 为 最 终 用 户 、 应 用 程序 和 企业 提供 
很 多 帮助 。 


7.1.2 虚拟 化 的 发 展 历史 


1. 虚拟 化 技术 的 萌芽 

20 世纪 60 年 代 开始 ,美国 计算 机 学 术 界 就 有 了 虚拟 技术 思想 的 萌芽 。1959 年 克 里 斯 
托 弗 (Christopher Strachey) 发 表 了 一 篇 学 术 报告 ,名 为 《大 型 高 速 计算 机 中 的 时 间 共 享 》 
(Time Sharingin Large Fast Computers) ,他 在 报告 中 提出 了 虚拟 化 的 基本 概念 ,这 篇 文章 
也 被 认为 是 虚拟 化 技术 的 最 早 论 述 。 

L. W. Comeau 和 R.J. Creasy 创造 性 地 设计 了 一 种 名 为 CP-40 的 新 型 操作 系统 ,该 操 
作 系 统 实现 了 虚拟 内 存 和 虚拟 机 。 

2. 20 世纪 六 七 十 年 代 : 虚拟 化 技术 在 大 型 机 上 的 实现 

虚拟 化 技术 在 20 世纪 60 年 代 首次 出 现 , 由 IBM 率先 实施 : 是 一 种 对 大 型 计算 机 进行 
逻辑 分 区 以 形成 若干 独立 虚拟 机 的 方式 。 这 些 分 区 允许 大 型 计算 机 进行 “多 任务 处 理 ”, 即 
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同时 运行 多 个 应 用 程序 和 进程 。 原 因 是 当时 大 型 计算 机 是 十 分 昂贵 的 资源 ,因此 设计 了 虚 
拟 化 技术 来 进行 分 区 ,作为 一 种 充分 利用 投资 的 方式 ,解决 了 大 型 计算 机 的 僵化 和 使 用 率 不 
足 的 问题 。 

1965 年 8 月 ,IBM 推出 System/360 Model 67 和 TSS 分 时 共享 系统 (Time Sharing 
System) ,通过 虚拟 机 监视 器 (Virtual Machine Monitor) 虚 拟 所 有 的 硬件 接口 ,允许 很 多 远 
程 用 户 在 同一 时 间 共 享 同 一 高 性 能 计算 设备 。 在 IBM 内 部 , Model 67 与 另 一 个 被 称 为 
CP-67 的 系统 配合 使 用 ,以 保证 使 用 一 台 360/67 模仿 多 台 不 同型 号 的 计算 机 。 同 年 还 发 布 
了 M44/44X 计算 机 项 目 , 定 义 了 虚拟 内 存 管理 机 制 ,用 户 程 序 可 以 运行 在 虚拟 的 内 存 中 ， 
对 于 用 户 来 说 ,这 些 虚 拟 内 存 就 好 像 一 个 个 虚拟 机 ,为 多 个 用 户 的 程序 提供 了 独立 的 计算 
环境 。 

1972 年 ,IBM 发 布 用 于 创建 灵活 大 型 主机 的 虚拟 机 (VMD) 技 术 , 该 技术 可 根据 动态 的 
需求 快速 而 有 效 地 使 用 各 种 资源 。 一 批 新 的 拥有 虚拟 化 功能 的 产品 涌现 出 来 ,这 些 机 器 在 
当时 都 具有 虚拟 机 功能 ,通过 一 种 叫 作 VMM( 虚 拟 机 监控 器 ) 的 技术 在 物理 硬件 之 上 生成 
了 很 多 可 以 运行 独立 操作 系统 软件 的 虚拟 机 实例 。 

3. 20 世纪 八 九 十 年 代 : 虚拟 化 技术 在 小 型 机 上 的 实现 

在 20 世纪 八 九 十 年 代 , 由 于 客户 端 一 服务 器 应 用 程序 以 及 价格 低廉 的 x86 服务 器 和 
台式 机 组 成 了 分 散 的 计算 机 架构 ,大 型 计算 机 上 的 虚拟 化 技术 处 于 停滞 不 前 的 状态 。 由 
于 虚拟 化 技术 在 商业 应 用 上 的 优势 ,RISC 服务 器 与 小 型 计算 机 成 为 虚拟 化 技术 第 二 代 受 
益 者 。IBM 公司 在 AS/400 上 提出 上 逻辑 分 区 (LPAR, 如 图 7-2 所 示 ) 技 术 和 新 的 高 可 行 
性 集群 解决 方案 。 在 电源 管理 程序 上 运行 的 AS/400LPAR 令 单 台 服务 器 工作 起 来 如 同 
12 个 独立 的 服务 器 。 随 后 这 项 技术 还 应 用 在 IBM RS/6000 服务 器 (后 来 的 pSeries 服务 
器 ) 上 。 


Linux Windows 


虚拟 化 引擎 





图 7-2 LPAR 技术 


4. 21 世纪 : 虚拟 化 技术 在 x86 服务 器 上 的 实现 

20 世纪 90 年 代 Windows 的 广泛 使 用 以 及 Linux 作为 服务 器 操作 系统 的 出 现 葛 定 了 
x86 服务 器 的 行业 标准 地 位 。x86 服务 器 和 桌面 部 署 的 增长 带 来 了 新 的 IT 基础 架构 和 运 
行 难题 。 这 些 难题 包括 以 下 方面 。 

(1) 基础 架构 利用 率 低 

根据 市 场 调研 公司 美国 国际 数据 集团 (International Data Corporation,，IDC) 的 报告 ， 
典型 的 x86 服务 器 部 署 平均 达到 的 利用 率 仅 为 总 容量 的 10% 一 15%。 组 织 通 常 在 每 台 服 
务 器 上 运行 一 个 应 用 程序 ,以 避免 出 现 一 个 应 用 程序 中 的 漏洞 影响 同一 服务 器 上 其 他 应 用 
程序 的 可 用 性 风险 。 
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(2) 物理 基础 架构 成 本 日 益 攀 升 

为 支持 不 断 增 长 的 物理 基础 架构 而 需要 的 运营 成 本 稳步 攀升 。 大 多 数 计算 基础 架构 都 
必须 时 刻 保持 运行 ,因此 耗 电量 、 制 冷 和 设施 成 本 不 随 利 用 率 水 平 而 变化 。 

IT 管理 成 本 不 断 攀 升 。 随 着 计算 环境 日 益 复 杂 ,基础 架构 管理 人 员 所 需 的 专业 教育 水 
平和 经 验 以 及 使 用 此 类 人 员 的 相关 成 本 也 随 之 增加 。 组 织 在 与 服务 器 维护 相关 的 手动 任务 
方面 花费 过 多 的 时 间 和 资源 ,因而 也 需要 更 多 的 人 员 来 完成 这 些 任务 。 

(3) 故障 切换 和 灾难 保护 不 足 

关键 服务 器 应 用 程序 停机 和 关键 最 终 用 户 桌面 不 可 访问 对 组 织造 成 的 影响 越 来 越 大 。 
安全 攻击 自然 灾害 ` 流 行 疾病 以 及 恺 怖 主义 的 威胁 使 得 对 桌面 和 服务 器 进行 业务 连续 性 规 
划 显 得 更 为 重要 。 

(4) 最 终 用 户 桌面 的 维护 成 本 高 昂 

企业 桌面 的 管理 和 保护 带 来 了 许多 难题 。 在 不 影响 用 户 有 效 工 作 的 情况 下 控制 分 布 式 
桌面 环境 并 强制 实施 管理 .访问 和 安全 策略 ,实现 起 来 十 分 复杂 且 成 本 高 昂 。 必 须 不 断 地 对 
桌面 环境 应 用 数目 众多 的 修补 程序 和 升级 以 消除 安全 漏洞 。 

在 早期 ,由 于 x86 计算 机 性 能 的 低下 和 推广 程度 有 限 ,以 上 问题 并 未 突出 。 随 着 技术 的 
发 展 ,以 上 矛盾 日 益 尖 锐 ,基于 x86 体系 结构 的 计算 机 开始 出 现 了 20 世纪 60 年 代 大 型 计算 
机 经 历 过 的 同样 问题 , 即 缺 乏 灵活 性 和 未 得 到 充分 利用 以 及 上 述 提 到 的 一 系列 问题 。 

针对 以 上 问题 ,VMware 公司 在 1999 年 推出 了 针对 x86 系统 的 虚拟 化 技术 , 旨 在 解决 
上 述 很 多 难题 ,并 将 x86 系统 转变 成 通用 的 共享 硬件 基础 架构 ,以 便 使 应 用 程序 环境 在 完全 
隔离 ,移动 性 和 操作 系统 方面 有 选择 的 空间 。 


7.1.3 ”百花齐放 的 虚拟 化 技术 


在 20 世纪 ,虚拟 化 技术 基本 上 都 是 服务 器 虚拟 化 ,进入 了 21 世纪 , 随 着 IT 的 发 展 , 虚 
拟 化 的 思路 被 借用 到 服务 器 以 外 的 领域 (包括 存储 、 网 络 、 桌 面 应 用 等 ) ,形成 了 各 种 各 样 的 
虚拟 化 技术 。 

1. 存储 虚拟 化 技术 

所 谓 虚拟 存储 技术 ,就 是 把 各 种 不 同 的 存储 设备 有 机 地 结合 起 来 使 用 ,从 而 得 到 一 个 容 
量 很 大 的 “存储 池 ”, 可 以 提供 给 各 种 服务 器 灵活 使 用 ,并 且 可 以 在 各 存储 设备 间 灵 活 转移 数 
据 , 称 为 虚拟 存储 。 

存储 虚拟 化 的 基本 概念 是 将 实际 的 物理 存储 实体 与 存储 的 逻辑 表示 分 离开 来 ,应 用 服 
务 器 只 与 分 配给 它们 的 迎 辑 卷 (或 称 虚 卷 ) 打 交道 ,而 不 用 关心 其 数据 是 在 哪个 物理 存储 实 
体 上 。 人 逻辑 卷 与 物理 实体 之 间 的 映射 关系 是 由 安装 在 应 用 服务 器 上 的 卷 管理 软件 ( 称 为 主 
机 级 的 虚拟 化 ) ,或 存储 子 系统 的 控制 器 ( 称 为 存储 子 系统 级 的 虚拟 化 ) ,或 加 入 存储 网 络 
SAN 的 专用 装置 ( 称 为 网 络 级 的 虚拟 化 ) 来 管理 的 。 

主流 的 虚拟 存储 技术 厂商 和 产品 有 EMC 的 Invista、IBM 的 SVC、HDS 的 UPS 等 。 

2. 服务 器 虚拟 化 技术 的 进一步 发 展 : 

在 历史 悠久 的 服务 器 硬件 虚拟 化 方面 .在 RISC 领域 IBM 更 进一步 ,其 2002 年 发 布 的 
AIX5L v5. 2 首次 包括 了 IBM 实现 的 动态 逻辑 分 区 (DLPAR) 。DLPAR 允许 在 无 须 重启 系 
统 的 情况 下 ,将 包括 处 理 器 ,内存 和 其 他 组 件 在 内 的 系统 资源 分 配给 独立 的 分 区 。 这 种 在 不 
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中 断 运 行 的 情况 下 进行 资源 分 配 的 能 力 不 仅 令 系统 管理 变 得 更 加 轻松 ,而 且 因为 能 够 更 好 
地 使 用 资源 而 帮助 降低 总 成 本 。 

3. 应 用 虚拟 化 技术 : 

在 桌面 应 用 来 看 ,开始 出 现 了 应 用 虚拟 化 (也 称 为 桌面 虚拟 化 ) 的 技术 ,该 技术 把 应 用 程 
序 的 人 机 交互 逻辑 (应 用 程序 界面 键盘 及 鼠标 的 操作 、 音 频 输入 输出 、 读 卡 器 、 打 印 输出 等 ) 
与 计算 逻辑 隔离 开 来 ,客户 端 无 须 安装 软件 ,通过 网 络 连接 到 应 用 服务 器 上 ,计算 逮 辑 从 本 
地 迁移 到 后 台 的 服务 器 完成 ,实现 应 用 的 快速 交付 和 统一 管理 ,如 图 7-3 所 示 。 

















系统 管理 程序 
服务 器 硬件 





7-3 ”虚拟 桌面 示意 图 


4. 网 络 虚拟 化 技术 

在 网 络 方面 ,虚拟 设备 (如 虚拟 交换 ) 的 出 现 就 是 网 络 虚拟 化 最 好 的 体现 。 企 业 网 络 管 
理 者 通过 在 交换 机 上 开启 虚拟 交换 机 ,从 而 实现 虚拟 化 共享 IT 资源 并 将 它们 按 需 求 分 配 
给 特定 的 任务 ,使 用 户 可 以 用 更 少 的 物理 资源 满足 应 用 需求 。 同 时 很 多 网 络 技术 ,诸如 帧 中 
继 、 人 逻辑 分 区 和 RAID 等 都 可 使 用 虚拟 化 。 虚 拟 化 正在 通过 新 的 方式 被 用 于 数据 中 心 ,使 网 
络 功能 得 以 巩固 自动 完 

对 以 上 各 种 虚拟 化 技术 在 后 文中 将 会 详细 介绍 。 

5. VCE 联盟 

值得 一 提 的 是 ,2009 年 11 月 9 日 ,VMware、`Cisco .EMC 三 家 共同 出 资 ,Intel 公司 参股 
的 Acadia 公司 正式 成 立 ,三 家 主要 合作 公司 建立 了 虚拟 计算 环境 联盟 VCE (Virtual 
Computing Environment) ,当然 这 个 联盟 的 首 字 母 缩写 也 是 这 三 个 IT 公司 名 称 的 首 字母 ， 
并 推出 了 类 似 于 虚拟 化 架构 基础 软件 包 的 Vblock 基础 架构 包 , 其 整合 了 Cisco 的 统一 计算 
系统 (UCS) 和 交换 机 ,EMC 的 存储 和 安全 技术 以 及 VMware 的 虚拟 化 技术 。 

Vblock 基础 架构 包 是 一 个 完全 集成 .经 过 测试 和 验证 的 、 整 装 待 发 和 蓄 势 成 长 的 基础 
架构 包 , 它 融合 了 Cisco、.EMC 和 VMware 提供 的 业内 最 强 的 虚拟 化 、 网 络 、 计 算 、 存 储 、 安 
全 和 管理 技术 ,并 且 具 备 端 到 端的 供应 商 可 靠 性 。 通 过 Cisco 的 统一 计算 系统 .EMC 的 虚 
拟 化 数据 中 心 概念 机 存储 系统 以 及 控制 着 绝 大 部 分 x86 环境 下 虚拟 化 应 用 的 VMware 虚 
拟 化 产品 ,将 通过 Vblock 基础 架构 包 ( 如 图 7-4 所 示 ,这 是 “虚拟 计算 环境 联盟 ?所 推出 的 产 
品 ), 以 整合 的 概念 推广 到 用 户 中 。 这 三 家 虚拟 化 巨头 的 结盟 ,将 会 给 虚拟 化 产业 带 来 深远 
的 影响 。 


7.1.4 虚拟 化 的 优势 


与 传统 IT 资源 分 配 的 应 用 方式 相 比 ,虚拟 化 有 以 下 优势 。 
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Vblock 2(3000-6000+ 虚 拟 机 ) 


。 完 全 地 可 扩展 的 高 端 配置 

。 为 大 型 和 绿色 虚拟 化 而 设计 

。 思科 UCS，Nexus 1000V, 多 层 导向 交换 机 : EMC SymmetrixV- 
Max;VMware vSphere 


Vblock 1(800~3000 虚拟 机 ) 
。 中 型 配置 
。 为 集中 和 优化 而 设计 
。 思 科 UCS，Nexus 1000v,MDS:EMC CLARiiON CX-4: 
VMware vSphere 





图 7-4 Vblock 基础 架构 包 


(1) 虚拟 化 技术 可 以 大 大 提高 资源 的 利用 率 

为 了 达到 资源 的 最 高 利用 率 , 虚 拟 化 把 一 个 硬件 虚拟 成 多 个 硬件 ,这 里 的 一 个 硬件 指 的 
不 是 一 个 个 体 ,而 是 由 多 个 个 体 组 成 的 一 组 资源 ,例如 可 以 将 多 个 硬盘 组 成 阵列 ,将 多 个 硬 
盘 视 为 计算 机 的 硬盘 部 分 。 用 户 将 许多 资源 组 成 一 个 庞大 的 、 计 算 能 力 十 分 巨大 的 “巨型 计 
算 机 ”, 再 将 这 个 巨型 计算 机 虚拟 成 多 个 独立 的 系统 ,这 些 系统 相互 独立 ,但 共享 资源 ,这 就 
是 虚拟 化 的 精髓 。 传 统 的 IT 企业 为 每 一 项 业务 应 用 部 署 一 台 单独 的 服务 器 ,服务 器 的 规 
模 通 常 是 针对 峰值 配置 ,服务 器 规模 (处 理 能 力 ) 远 远大 于 服务 器 的 平均 负载 ,服务 器 在 大 部 
分 时 间 处 于 空闲 状态 ,资源 得 不 到 最 大 利用 。 虚 拟 化 技术 能 够 动态 调用 空闲 资源 , 减 小 服务 
器 规模 ,提高 资源 利用 率 。 

(2) 提供 相互 隔离 、 安 全 、 高 效 的 应 用 执行 环境 

用 户 可 以 在 一 台 计 算 机 上 模拟 多 个 系统 及 多 个 不 同 的 操作 系统 。 虚 拟 系统 下 的 各 个 子 
系统 相互 独立 ,即使 一 个 子 系统 遭受 攻击 而 崩溃 ,也 不 会 对 其 他 系统 造成 影响 ,而 且 在 使 用 
备份 机 制 后 , 子 系统 可 以 被 快速 地 恢复 。 同 时 ,应 用 执行 环境 简单 易 行 ,大 大 提高 了 工作 效 
率 ,降低 了 总 体 的 投资 成 本 。 

(3) 采用 虚拟 化 技术 后 ,虚拟 化 系统 能 够 方便 地 管理 和 升级 资源 

传统 的 IT 服务 器 资源 是 硬件 相对 独立 的 个 体 , 对 每 一 个 资源 都 要 进行 相应 的 维护 和 
升级 ,会 耗费 企业 大 量 的 人 力 和 物力 。 虚 拟 化 系统 将 资源 整合 ,在 管理 上 十 分 方便 ,在 升级 
时 只 需 添加 动作 , 避 开 传统 企业 进行 容量 规划 、 定 制服 务 器 ,安装 硬件 等 工作 ,从 而 提高 了 工 
作 效 率 。 


7.1.5 虚拟 化 的 目的 


虚拟 化 的 主要 目的 是 对 IT 基础 设施 进行 简化 。 它 可 以 简化 对 资源 以 及 对 资源 管理 的 
访问 。 

消费 者 可 以 是 一 名 最 终 用 户 、 应 用 程序 、 访 问 资源 或 与 资源 进行 交互 的 服务 。 资 源 是 一 
个 提供 一 定 功能 的 实现 , 它 可 以 基于 标准 的 接口 接受 输入 和 提供 输出 。 资 源 可 以 是 硬件 , 例 
如 服务 器 .磁盘 、 网 络 、 仪 器 ;也 可 以 是 软件 ,例如 Web 服务 。 

虚拟 化 支持 的 操作 系统 有 Windows 和 Linux 各 种 系统 。 

消费 者 通过 受 虚拟 资源 支持 的 标准 接口 对 资源 进行 访问 。 使 用 标准 接口 ,可 以 在 IT 
基础 设施 发 生变 化 时 将 对 消费 者 的 破坏 降 到 最 低 。 例 如 ,最 终 用 户 可 以 重用 这 些 技巧 ,因为 
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他 们 与 虚拟 资源 进行 交互 的 方式 并 没有 发 生变 化 ,即使 底层 物理 资源 或 实现 已 经 发 生 了 变 
化 ,他 们 也 不 会 受到 影响 。 另 外 ,应 用 程序 也 不 需要 进行 升级 或 应 用 补丁 ,因为 标准 接口 并 
没有 发 生变 化 。 

IT 基础 设施 的 总 体 管理 也 可 以 得 到 简化 。 因 为 虚拟 化 降低 了 消费 者 与 资源 之 间 的 看 
合 程度 ,因此 ,消费 者 并 不 依赖 于 资源 的 特定 实现 。 利 用 这 种 耦合 关系 ,管理 员 可 以 在 保证 
管理 工作 对 消费 者 产生 最 小 影响 的 基础 上 实现 对 IT 基础 设施 的 管理 。 管 理 操作 可 以 手工 
完成 ,也 可 以 半自动 化 完成 ,或 者 通过 服务 级 协定 (SLA) 了 驱动 来 自动 完成 。 

在 这 个 基础 上 ,网 络 计 算 可 以 广泛 地 利用 虚拟 化 技术 。 网 络 计算 可 以 对 IT 基础 设施 
进行 虚拟 化 。 它 处 理 IT 基础 设施 的 共享 和 管理 ,动态 提供 符合 用 户 和 应 用 程序 需求 的 资 
源 , 同 时 还 将 提供 对 基础 设施 的 简化 访问 。 





7.2 现 有 虚拟 化 技术 的 分 析 与 对 比 


现 有 的 较 成 熟 的 虚拟 化 技术 主要 分 为 服务 器 虚拟 化 (也 称 为 操作 系统 虚拟 化 )、 网 络 虚 
拟 化 ,存储 虚 拟 化 、 应 用 虚拟 化 (也 称 为 桌面 虚拟 化 ) 四 种 。 


7.2.1 服务 器 虚拟 化 


服务 器 虚拟 化 是 虚拟 化 技术 最 早 细 分 出 来 ,最 成 熟 的 领域 。 在 2006 年 2 月 Forrester 
Research 的 调查 中 ,全 球 范围 的 企业 对 服务 器 虚拟 化 的 认 知 率 达 到 了 75%。1/3 的 企业 已 
经 在 使 用 或 者 准备 部 署 服务 器 虚拟 化 。 这 个 产生 于 20 世纪 60 年 代 的 技术 日 益 显 示 出 其 重 
要 价值 。 由 于 服务 器 虚拟 化 的 发 展 时 间 长 ,应 用 广泛 ,所 以 很 多 时 候 人 们 几乎 把 服务 器 虚拟 
化 等 同 于 虚拟 化 。 

关于 服务 器 虚拟 化 的 概念 ,各 个 厂商 有 自己 不 同 的 定义 ,然而 其 核心 思想 是 一 致 的 , 即 
它 是 一 种 方法 ,能 够 通过 区 分 资源 的 优先 次 序 并 随时 随地 能 将 服务 器 资源 分 配给 最 需要 它 
们 的 工作 负载 来 简化 管理 和 提高 效率 ,从 而 减少 为 单个 工作 负载 峰值 而 储备 的 资源 。 

有 了 虚拟 化 技术 ,用 户 可 以 动态 启用 虚拟 服务 器 (又 称 为 虚拟 机 ) ,每 个 服务 器 实际 上 可 
以 让 操作 系统 (以 及 在 上 面 运行 的 任何 应 用 程序 ) 误 以 为 虚拟 机 就 是 实际 硬件 。 运 行 多 个 虚 
拟 机 还 可 以 充分 发 挥 物理 服务 器 的 计算 潜能 ,迅速 应 对 数据 中 心 不 断 变化 的 需求 。 

服务 器 虚拟 化 按 实现 原理 来 分 ,主要 分 为 基于 CPU 的 虚拟 化 、 基 于 硬件 的 虚拟 化 ,以 
及 基于 操作 系统 的 虚拟 化 。 

1. 基于 CPU 的 虚拟 化 

在 Intel.AMD 等 厂商 的 设计 蓝图 中 ,CPU 虚拟 化 技术 的 最 终 目标 是 可 以 单 CPU 模拟 
多 CPU 并 行 ,允许 一 个 平台 同时 运行 多 个 操作 系统 ,并 且 应 用 程序 都 可 以 在 相互 独立 的 空 
间 内 运行 而 互 不 影响 ,从 而 显著 提高 计算 机 的 工作 效率 。 从 处 理 器 硬件 角度 实现 了 服务 器 
(操作 系统 ) 级 别 虚拟 化 ,从 而 提高 了 效率 。 

在 设计 蓝图 中 ,支持 虚拟 技术 的 CPU 带 有 特别 优化 过 的 指令 集 来 控制 虚拟 过 程 ,通过 
这 些 指 令 集 ,VMM(Virtual Machine Monitor. 也 就 是 虚拟 机 软件 ) 会 很 容易 提高 性 能 , 相 比 
软件 的 虚拟 实现 方式 会 在 很 大 程度 上 提高 其 性 能 。 虚 拟 化 技术 可 提供 基于 芯片 的 功能 , 借 
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助 兼容 VMM 软件 能 够 改进 纯 软 件 解决 方案 。 由 于 虚拟 化 硬件 可 提供 全 新 的 架构 ,支持 操 
作 系 统 直接 在 其 上 运行 ,从 而 无 须 进 行 二 进 制 转换 ,减少 了 相关 的 性 能 开销 , 极 大 简化 了 
VMM 设计 ,进而 使 VMM 能 够 按 通用 标准 进行 编写 ,其 性 能 更 加 强大 。 另 外 ,在 纯 软 件 
VMM 中 ,缺少 对 64 位 客户 操作 系统 的 支持 ,而 随 着 64 位 处 理 器 的 不 断 普 及 ,这 一 严重 缺 
点 也 日 益 突 出 。 而 CPU 的 虚拟 化 技术 除 支持 传统 操作 系统 之 外 ,还 支持 64 位 客户 操作 
系统 。 

Intel 自 2005 年 未 开始 便 在 其 处 理 器 产品 线 中 推广 应 用 Intel Virtualization 
Technology(Intel VT) 虚 拟 化 技术 。Intel 已 经 发 布 了 具有 Intel VT 虚拟 化 技术 的 一 系列 
处 理 器 产品 ,包括 桌面 平台 的 Pentium 4 6x2 系列 Pentium D 9x0 系列 和 Pentium EE 9xx 
系列 ,还 有 Core Duo 系列 和 Core Solo 系列 中 的 部 分 产品 ,以 及 服务 器 /工作 站 平台 上 的 
Xeon LV 系列 .Xeon 5000 系列 、Xeon 5100 系列 .Xeon MP 7000 系列 以 及 Itanium 2 9000 
系列 ;同时 绝 大 多 数 的 Intel 下 一 代 主 流 处 理 器 ,包括 Merom 核心 移动 处 理 器 ,Conroe 核心 
桌面 处 理 器 , Woodcrest 核心 服务 器 处 理 器 ,以 及 基于 Montecito 核心 的 Itanium 2 高 端 服 
务 器 处 理 器 都 将 支持 Intel VT 虚拟 化 技术 。 

而 AMD 方面 也 已 经 发 布 了 支持 AMD 虚拟 化 技术 (AMD VT) 的 一 系列 处 理 器 产品 ， 
包括 Socket Sl 接口 的 Turion 64 x2 系列 以 及 Socket AM2 接口 的 Athlon 64 x2 系列 和 
Athlon 64 Fx 系列 等 ,并 且 绝 大 多 数 的 AMD 下 一 代 主 流 处 理 器 ,包括 即将 发 布 的 Socket F 
接口 的 Opteron ,都 将 支持 AMD VT 虚拟 化 技术 。 

但 虚拟 化 技术 是 一 套 解决 方案 。 完 整 的 情况 需要 CPU ,主板 芯片 组 .BIOS 和 软件 的 支 
持 , 例 如 虚拟 化 软件 或 者 某 些 操作 系统 本 身 。 但 截至 目前 ,这 套 解 决 方案 还 没完 全 落地 和 实 
现 。 目 前 CPU 虚拟 化 技术 暂时 还 停留 在 CPU 对 服务 器 (操作 系统 ) 级 别 虚拟 化 优化 这 个 
层面 。 

2. 基于 硬件 的 虚拟 化 

基于 硬件 的 服务 器 虚拟 化 产品 走 得 比较 靠 前 的 应 该 是 IBM 和 HP 等 服务 器 硬件 的 厂 
商 。 这 两 家 公司 在 最 新 的 RISC 架构 服务 器 及 最 新 版 的 操作 系统 中 都 戏 入 了 虚拟 化 技术 。 

(1) IBM 的 硬件 虚拟 化 

IBM 早 在 p690 服务 器 和 AIX 5L 操作 系统 首次 公布 的 时 候 , 就 宣布 在 其 动态 逻辑 分 区 
(LPAR) 技 术 的 支持 下 ,一 个 系统 内 可 独立 地 运行 多 个 分 区 ,每 个 分 区 运行 独立 地 操作 系 
统 , 这 时 候 的 分 区 是 以 CPU 为 “颗粒 ”的 。 

到 发 布 p5 服务 器 时 ,IBM 最 新 的 微分 区 技术 打破 了 分 区 上 以 CPU 为 “颗粒 ”的 限制 ， 
可 以 将 单个 CPU 划分 为 10 个 微分 区 ,从 而 创建 和 运行 比 物理 处 理 器 数量 更 多 的 分 区 。 
IBM 同时 宣布 ,新 版 操作 系统 AIX 5. 3 可 以 支持 1/10 CPU 颗粒 的 微分 区 。 

微分 区 源 自 大 型 主机 技术 ,是 基于 服务 器 虚拟 化 领域 的 两 项 主要 突破 : 四 物理 处 理 器 
虚拟 化 ; @L/O 设备 虚拟 化 。 两 项 虚拟 化 都 可 实现 分 区 对 这 类 计算 资源 的 共享 。 可 实现 以 
下 3 大 功能 : 可 精细 调整 的 资源 分 配 ; @ 更 大 分 区 数量 的 承载 能 力 ; 回 更 高 资源 利用 
效 府 : 

从 成 本 角度 看 ,用 户 现 有 UNIX 系统 的 利用 率 常常 只 有 10%% 一 25% ,一 味 地 通过 增加 
服务 器 和 处 理 器 数量 来 满足 应 用 ,势必 使 成 本 上 升 而 收效 甚 微 。 常 见 的 分 区 技术 往往 是 以 
大 于 或 者 等 于 一 颗 物理 处 理 器 为 单位 实现 的 ,在 实际 应 用 中 这 一 界限 有 时 并 不 够 精细 ,尤其 
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是 随 着 单位 CPU 处 理 能 力 的 不 断 提高 就 更 是 如 此 。 

如 果 采 用 微分 区 技术 ,效果 十 分 显著 。 因 为 这 意味 着 用 户 在 服务 器 整合 中 ,不 再 需要 买 
太 多 的 处 理 器 ,资源 的 划分 和 共享 也 将 更 为 精细 ,如 图 7-5 所 示 。 
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7-5 虚拟 化 微分 区 技术 示意 图 


后 来 ,IBM 进一步 拓展 了 其 服务 器 虚拟 技术 的 范畴 ,推出 了 巾 操作 系统 .系统 技术 和 系 
统 服务 三 部 分 组 成 的 服务 器 虚拟 引擎 。 其 中 ,操作 系统 涉及 AIX、i5/OS、z/OS 和 Linux, 其 
技术 宗旨 是 单 台 服务 器 内 运行 多 种 操作 系统 ,在 异 构 IT 基础 架构 中 以 统一 的 方式 实现 资 
源 的 共享 和 管理 以 及 管理 非 IBM 操作 系统 平台 ;系统 技术 包括 微分 区 、VLAN 虚拟 IO、 
Hypervisor 等 ;而 系统 服务 则 包括 一 个 服务 器 系统 服务 套件 和 一 个 存储 系统 服务 套件 。 在 
服务 器 系统 服务 套件 中 ,包括 硬件 监督 模块 VE Console( 虚 拟 引 擎 控制 台 ) ,可 以 利用 两 个 
主要 的 功能 模块 Launchpad 和 Health Center 监控 资源 的 运行 状态 ,进行 问题 诊断 和 系统 
管理 ;另外 还 包括 硬件 管理 模块 IBM Direction Multiplatform 整合 系统 管理 。 

同时 ,IBM 还 推出 了 应 用 虚拟 工具 套件 ,包括 应 用 监督 模块 Enterprise Workload 
Management( 企 业 负 载 管 理 器 ,EWLM) ,可 以 在 异 构 环境 下 自动 管理 分 布 式 企业 级 系统 ， 
根据 业务 优先 级 将 IT 服务 分 类 ,设立 相应 的 性 能 目标 ,并 根据 这 些 性 能 目标 提供 端 到 端的 
性 能 分 析 和 评估 ,通过 分 析 ,EWLM 自动 按照 应 用 拓扑 调整 网 络 路 由 。 与 EWLM 相配 合 
的 是 一 个 应 用 管理 模块 Tivoli Provisioning Manger(TPM) .该 模块 与 EWLM 配合 ,可 以 实 
现 系统 部 署 和 配置 步骤 的 自动 化 ,为 IT 系统 的 自动 部 署 .资源 分 配 和 启用 提供 解决 方案 。 

(2) HP 的 硬件 虚拟 化 

除了 IBM 以 外 ,HP 的 分 区 连续 技术 能 够 把 服务 器 划分 成 物理 或 逻辑 独立 的 分 区 ,为 
优化 资源 利用 、 提 高 服务 器 的 可 用 性 提供 坚实 的 基础 。 

@ 硬件 分 区 CnPars): HP nPARS 是 单个 服务 器 中 的 硬件 分 区 。nPARS 根据 服务 器 
类 型 最 多 提供 16 个 硬件 分 区 、 完 全 的 硬件 和 软件 隔离 能 力 以 及 在 一 个 服务 器 上 运行 多 个 
OS 实例 。 

@ 虚拟 分 区 (vPars): HP vPARS 具有 在 一 个 系统 或 硬件 分 区 内 实现 执行 多 个 OS 实 
例 的 独特 特性 。 每 个 vPARS 能 够 拥有 规定 的 内 存量 、 一 个 或 多 个 物理 内 存 区 域 、 一 个 规定 
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的 CPU 池 、 服 务 器 内 一 个 或 多 个 I/O 卡 。 能 够 使 用 软件 命令 动态 地 创立 和 修改 vPARS。 
因此 ,每 个 应 用 能 够 在 性 能 最 大 、OS 配置 要 求 得 到 满足 的 环境 中 运行 。 

@ 资源 分 区 : 进程 资源 管理 软件 (PRM) 能 够 动态 地 以 多 种 方式 把 系统 资源 (CPU、 内 
存 和 磁盘 1/O) 分 配给 客户 的 应 用 ,分 配 的 方式 可 以 是 根据 份额 \ 百 分 比 和 处 理 器 组 
(pSets)。pSets 允许 在 服务 器 上 创立 处 理 器 组 ,而 应 用 或 用 户 可 以 被 分 配 到 规定 的 pSet 上 
运行 。 

3. 基于 操作 系统 的 虚拟 化 

基于 操作 系统 的 虚拟 化 允许 多 个 虚拟 机 通过 分 配 时 间 和 资源 带宽 的 方式 ,共享 同一 个 
底层 物理 服务 器 及 其 资源 。 由 于 目前 硬件 的 处 理 能 力 一 直 高 于 其 上 运行 的 应 用 程序 ,因此 
虚拟 化 允许 用 户 在 共享 硬件 上 运行 多 个 应 用 程序 工作 负载 ,借以 提高 硬件 的 整体 利用 率 。 

采用 虚拟 化 实现 服务 器 整合 ,除了 可 以 节省 总 体 成 本 外 ,还 可 以 提高 服务 水 平和 可 用 
性 。 例 如 ,由 于 虚拟 机 是 经 过 封装 的 ,因此 可 轻易 获取 和 迁移 其 配置 信息 和 状态 信息 。 虚 拟 
机 的 虚拟 磁盘 其 实 是 一 些 文件 ,可 备份 和 快速 恢复 这 些 文件 以 备 灾难 /恢复 时 使 用 。 

很 多 情况 下 “客户 ”操作 系统 是 通过 虚拟 机 监视 器 (Virtual Machine Monitor, VMM) 来 
与 硬件 进行 通信 ,由 VMM 来 决定 其 对 系统 上 所 有 虚拟 机 的 访问 (注意 : 大 多 数 处 理 器 和 内 
存 访问 独立 于 VMM, 只 在 发 生 特定 事件 时 才 会 涉及 VMM, 如 页 面 错误 等 )。 在 纯 软 件 虚 
拟 化 解决 方案 中 ,VMM 在 软件 套件 中 的 位 置 是 传统 意义 上 操作 系统 所 处 的 位 置 ,而 操作 系 
统 的 位 置 是 传统 意义 上 应 用 程序 所 处 的 位 置 。 这 一 额外 的 通信 层 需要 进行 二 进 制 转换 ,以 
通过 提供 到 物理 资源 (如 处 理 器 内存 存储. 显卡 和 网 卡 等 ) 的 接口 模拟 硬件 环境 。 这 种 转 
换 必 然 会 增加 系统 的 复杂 性 。 此 外 ,客户 操作 系统 的 支持 受到 虚拟 机 环境 的 限制 ,这 会 阻碍 
特定 技术 的 部 署 , 如 64 位 客户 操作 系统 。 在 纯 软 件 解决 方案 中 ,软件 堆栈 增加 的 复杂 性 意 
味 着 这 些 环 境 难 于 管理 ,因而 会 加 大 确保 系统 可 靠 性 和 安全 性 的 困难 。 

VMware 是 服务 器 虚拟 化 领域 的 市 场 领先 产品 和 创新 品牌 ,提供 一 套 虚拟 机 解决 方案 
的 软件 。 除 了 VMware 之 外 ,业界 还 有 微软 Hyper-V 和 Xen 等 服务 器 虚拟 化 软件 。 

Xen 是 一 种 著名 的 开放 源 代码 的 虚拟 化 技术 , 它 基于 Linux 平 台 。 由 于 Xen 采用 半 虚 
拟 化 的 技术 ,也 就 是 说 操作 系统 要 经 过 一 点 修改 才能 在 Xen 上 运行 ,所 以 Xen 的 性 能 要 优 
于 其 他 虚拟 化 技术 。Xen 由 XenSource 公司 负责 开发 ,后 来 Citrix 公司 在 2007 年 8 月 以 
5 亿美 元 收购 了 XenSource 公司 。IBM SUN Intel HP 等 硬件 厂商 都 在 自己 的 硬件 上 对 
Xen 提供 了 很 好 的 支持 。RedHat、Novell 等 Linux 操作 系统 厂商 也 都 在 自己 的 操作 系统 上 
集成 了 开源 的 Xen 软件 。 

下 面 将 对 VMware 和 微软 的 产品 进行 介绍 。 

4. 服务 器 虚拟 化 主要 产品 VMware 

VMware 是 服务 器 虚拟 化 领域 的 主要 供应 商 ,其 最 新 的 产品 vSphere 套件 包括 许多 产 
品 ,其 架构 如 图 7-6 所 示 。 

(1) VMware ESX 

VMware ESX 是 VMware vSphere 的 构造 块 ,ESX 直接 安装 在 为 虚拟 基础 架构 提供 资 
源 的 各 个 主机 服务 器 的 硬件 或 “ 裸 机 ”上 。ESX 提供 了 一 个 稳固 的 虚拟 化 层 ,从 而 使 每 个 服 
务 器 能 够 容纳 多 个 安全 ,可 移植 的 虚拟 机 ,这 些 虚拟 机 可 在 同一 物理 服务 器 上 并 行 运行 。 

裸 机 结构 使 ESX 能 够 完全 控制 分 配给 各 个 虚拟 机 的 服务 器 资源 ,并 可 提供 接近 本 机 水 
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内 部 云 计 算 外 部 云 计 算 
7-6 ”服务 器 虚拟 化 示意 图 


平 的 虚拟 机 性 能 以 及 企业 级 的 可 扩展 性 。 

单个 ESX 最 多 可 以 容纳 320 个 运行 中 的 虚拟 机 。 假 设 处 于 典型 工作 负载 下 ,每 个 主机 
处 理 器 通常 支持 大 约 20 个 运行 中 的 虚拟 机 。 使 用 VMware Virtual Symmetric Multi- 
Processing(SMP) 时 ,可 以 将 每 个 虚拟 机 配置 为 最 多 访问 255 GB 内 存 和 8 个 处 理 器 。 在 多 
个 虚拟 机 之 间 共 享 物理 服务 器 资源 可 大 大 提高 硬件 的 利用 率 并 降低 资金 成 本 。 

ESX 可 提供 细致 入 微 的 资源 管理 ,通过 它 可 以 在 运行 中 的 虚拟 机 之 间 共 享 物 理 服 务 器 
的 资源 ,以 使 服务 器 利用 率 最 大 化 ,同时 确保 虚拟 机 相互 隔离 。 虚 拟 化 起 到 了 资源 倍增 器 的 
作用 ,可 以 让 具有 32GB 内 存 的 4 路 服务 器 从 存储 区 域 网 络 引导 32 个 虚拟 机 ,这 样 就 总 共 
具有 64GB 内 存 、32 个 虚拟 磁盘 和 64 个 虚拟 网 卡 。 

实际 的 情况 是 ,有 时 候 没有 工作 负载 ,不 同 的 应 用 程序 受制 于 不 同 的 硬件 资源 ( 即 有 些 
应 用 程序 受制 于 内 存 , 而 有 些 应 用 程序 则 受制 于 CPU) ,而 且 不 同 工 作 负载 的 利用 率 峰 值 发 
生 在 不 同 的 时 间 。IT 经 理 可 以 根据 这 些 实际 情况 来 合理 配置 资源 。 可 以 使 用 最 小 值 .最 大 
值 和 按 比 例 份 额 数量 来 为 虚拟 机 分 配 CPU 内存、 磁盘 和 网 络 带 宽 等 资源 ,这 样 , 应 用 程序 
就 可 以 安全 并 间 向 性 地 使 用 更 多 数量 的 物理 资源 .而 不 需要 固定 的 分 配额 。 如 果 将 ESX 与 
vCenter 一 起 部 署 , 就 可 以 实现 对 企业 数据 中 心 的 管理 。 虚 拟 机 内 置 了 高 可 用 性 、 资 源 管理 
和 安全 性 等 特性 ,这 些 特性 为 软件 应 用 程序 提供 了 比 静 态 物 理 环境 更 高 的 服务 级 别 。 
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VMware vSphere 可 以 运行 在 各 种 经 认证 的 硬件 上 ,从 具有 多 个 双核 处 理 器 和 高 端 光 
纤 通 道 SAN 存储 阵列 的 最 大 x86 数据 中 心 系统 ,到 采用 低 成 本 的 NAS 和 iSCSI 存储 的 人 
门 级 白 盒 服务 器 。 

(2) VMware Virtual SMP 

VMware Virtual SMP 提供 了 多 处 理 器 虚拟 机 以 处 理 过 重 的 工作 负载 。 借 助 VMware 
Virtual SMP ,单个 虚拟 机 可 以 同时 使 用 主机 服务 器 中 的 多 个 物理 处 理 器 或 CPU, 从 而 增强 
了 虚拟 机 的 性 能 。Virtual SMP 可 协助 调度 非 闲置 的 虚拟 处 理 器 ,同时 又 允许 处 理 器 过 载 。 
通过 在 虚拟 机 内 部 运行 的 客户 操作 系统 ,可 取消 对 闲置 虚拟 处 理 器 的 调度 ,然后 将 其 重新 应 
用 于 其 他 任务 。Virtual SMP 会 定期 在 可 用 的 处 理 器 之 间 移 动 正在 处 理 的 任务 ,以 重新 平 
衡 工作 负载 。VMware 还 提供 了 一 项 独特 的 功能 , 即 Virtual SMP 支持 大 多 数 处 理 器 密集 
型 企业 应 用 程序 (如 数据 库 .ERP 和 CRM) 的 虚拟 化 。 

(3) VMware VMFS 

VMware VMEFS 支持 新 型 分 布 式 服务 。 虚 拟 机 完全 封装 在 虚拟 磁盘 文件 中 ,这 些 文件 
既 可 以 存储 在 ESX 本 地 ,也 可 以 集中 存储 在 共享 的 SAN、NAS 或 iSCSI 存储 中 ,如 图 7-7 
所 示 。 集 中 存储 方式 在 企业 环境 中 更 为 常见 ,这 样 ,其 他 ESX 也 可 以 使 用 共享 的 SAN、 
NAS 或 iSCSI 存储 以 及 Virtual Machine File System(VMFS) 来 集中 访问 各 个 虚拟 机 。 这 
种 配置 的 功能 要 强大 得 多 ,因为 它 允许 资源 池 中 包含 的 多 个 ESX 并 行 访问 若干 相同 的 文件 
来 引导 和 运行 虚拟 机 ,并 能 够 对 虚拟 机 存储 进行 有 效 的 虚拟 化 。 


虚拟 机 





共享 存储 
图 7-7 VMware VMFS 分 布 式 服务 示意 图 


常规 文件 系统 只 允许 一 台 服 务 器 在 指定 的 时 间 读 写 文件 系统 ,而 VMware VMFS 是 一 
种 高 性 能 的 群集 文件 系统 , 它 允 许多 个 ESX 同时 对 同一 个 虚拟 机 存储 进行 读 写 。VMEFS 提 
供 了 磁盘 锁定 功能 ,以 避免 多 个 服务 器 同时 启动 同一 个 虚拟 机 。 假 如 某 个 服务 器 出 现 故 障 ， 
该 服务 器 针对 各 个 虚拟 机 的 磁盘 锁 将 会 解除 ,这 样 便 可 以 在 其 他 物理 服务 器 上 重新 启动 这 
些 虚 拟 机 。 群 集 文 件 系 统 支持 一 些 基于 虚拟 化 的 、 独 特 的 新 型 分 布 式 服务 。 这 些 服 务 包括 
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在 两 个 物理 服务 器 之 间 实时 迁移 运行 中 的 虚拟 机 ,在 其 他 物理 服务 器 上 自动 重启 发 生 了 故 
障 的 虚拟 机 ,以 及 跨 多 个 不 同 物理 服务 器 建立 虚拟 机 群集 。 由 于 所 有 虚拟 机 均 将 其 存储 视 
为 本 地 连接 的 SCSI 磁盘 ,因此 如 果 将 虚拟 机 迁移 到 其 他 物理 服务 器 上 ,并 不 需要 对 虚拟 机 
存储 配置 进行 任何 更 改 。 

(4) VMware vCenter 

VMware vCenter 用 于 管理 所 有 VMware vSphere。vCenter Server 可 以 集中 管理 数 百 
个 ESX 主机 以 及 数 千 个 虚拟 机 ,如 图 7-8 所 示 , 使 IT 环境 具备 了 操作 自动 化 资源 优化 以 
及 高 可 用 性 等 优势 。vCenter 提供 了 单个 Windows 管理 客户 端 来 管理 所 有 任务 ,该 客户 端 
称 为 vSphere Client。 通 过 键盘 和 鼠标 可 和 置 备 、 配 置 、 启 动 、 停 止 、 删 除 、 重 新 定位 和 远程 访问 
虚拟 机 。vSphere Client 也 可 以 与 Web 浏览 器 结合 使 用 ,以 便 通 过 任意 联网 设备 访问 虚拟 
机 。 浏 览 器 形式 的 客户 端 使 用 户 可 以 像 发 送 书 签 URL 一 样 轻松 地 访问 虚拟 机 。 















物理 服务 器 
7-8”vCenter 管理 服务 示意 图 


无 论 管 理 多 大 规模 的 虚拟 化 IT 环境 ,vCenter 都 可 以 实现 最 简便 、 最 高 效 、 最 安全 、 最 
可 靠 的 管理 。vCenter 的 主要 功能 包括 以 下 方面 。 

O@ 集中 管理 功能 。 使 管理 员 能 够 通过 单一 界面 来 组 织 ,监控 和 配置 整个 环境 ,从 而 降 
低 运营 成 本 。vCenter 提供 了 多 个 组 织 结构 分 层 视图 以 及 拓扑 视图 ,清楚 地 表明 了 主机 与 
虚拟 机 的 关系 。 

@ 性 能 监控 功能 。 包 括 CPU 内存、 磁盘 I/O 和 网 络 1/O 的 利用 率 图 表 , 可 提供 必要 
的 详细 信息 ,用 于 分 析 主 机 服务 器 和 虚拟 机 的 性 能 。 

@ 操作 自动 化 。 通 过 任务 调度 和 警报 等 功能 提高 了 对 业务 需求 的 响应 能 力 , 并 确保 优 
先 执行 最 紧急 的 操作 。 

@ 利用 部 署 向 导 和 虚拟 机 模板 进行 的 快速 置 备 ,大 幅 缩 减 了 创建 和 部 署 虚 拟 机 所 需 的 
时 间 和 精力 ,只 需 单 击 几 下 鼠标 就 可 以 完成 操作 。 

回 安全 的 访问 控制 机 制 、 强 大 的 权限 管理 机 制 以 及 与 Microsoft Active Directory 的 集 
成 ,可 确保 只 能 对 VMware vSphere 及 其 虚拟 机 进行 经 过 授权 的 访问 。 通 过 为 经 过 授权 的 
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管理 员 和 最 终 用 户 指派 可 自 定义 的 角色 和 权限 ,可 以 安全 地 限制 对 虚拟 机 的 访问 。 无 论 数 
据 中 心 的 访问 控制 策略 多 么 详尽 ,也 能 完全 遵守 。 此 外 ,vCenter 还 包括 全 面 的 审核 跟踪 功 
能 ,用 于 保留 数据 中 心 内 每 一 项 重要 更 改 或 操作 的 详细 记录 ,以 便 支持 新 的 政府 法 规 ,如 
Sarbanes-Oxley。 

G@) 编程 接口 。VMware vSphere SDK 提供 了 Web Services API, 以 便 可 以 通过 图 形 用 
户 界面 访问 提供 的 功能 和 数据 ,并 可 以 集成 第 三 方 系统 管理 产品 以 及 对 核心 功能 进行 自 定 
义 扩展 。 

VMware vCenter 支持 将 ESX 主机 及 其 虚拟 机 组 织 到 群集 和 资源 池 中 ,如 图 7-9 所 示 ， 
这 样 就 大 大 简化 了 资源 管理 工作 。 和 群集 是 虚拟 基础 架构 管理 中 的 一 个 新 概念 , 它 同 时 具有 
多 个 主机 服务 器 的 强大 功能 与 管理 单个 实体 的 便利 性 。 利 用 资源 池 功 能 和 内 在 高 可 用 性 ， 
群集 可 将 多 个 独立 的 主机 聚集 到 单个 群集 中 ,从 而 大 大 简化 了 服务 器 的 管理 工作 。 现 在 可 
以 将 虚拟 机 置 备 到 群集 中 而 不 是 单个 ESX 主机 上 ,这 样 虚拟 机 便 可 使 用 群集 中 的 所 有 资 
源 。vCenter 可 以 为 虚拟 机 选择 最 适合 的 主机 ,并 可 以 在 情况 发 生变 化 时 在 群集 内 部 移动 
虚拟 机 。 





CPU=A 
要 资源 池 
妈 i [| CPU=A+B+C 
内 存 =X+Y+Z 
由 
=Y EE 
Ss 高 可 用 性 
透明 
CPU=C [| 故障 切换 
内 存 =Z 


独立 主机 群集 
7-9 虚拟 化 集群 示意 图 


由 于 虚拟 机 现在 是 运行 在 群集 上 而 不 是 独立 的 ESX 主机 上 ,因此 VMware 群集 具有 
内 在 的 高 可 用 性 。 如 果 某 个 VMware 主机 出 现 故障 , 则 可 以 在 群集 中 的 其 他 主机 上 重新 启 
动 该 主机 上 的 虚拟 机 。 当 在 群集 中 添加 或 删除 了 主机 时 ,群集 中 的 虚拟 机 可 使 用 的 资源 就 
会 随 之 动态 地 增多 或 减少 。 

资源 池 通 过 将 独立 主机 或 群集 的 资源 细 分 到 更 小 的 池 中 ,进一步 简化 了 虚拟 基础 架构 
的 管理 工作 并 提高 了 灵活 性 。 资 源 池 是 用 来 容纳 虚拟 机 的 容器 ,配置 有 一 组 CPU 和 内 存 
资源 , 供 该 资源 池 中 运行 的 虚拟 机 共享 。 资 源 池 的 一 般 用 法 是 ,将 对 一 组 精确 指定 的 资源 的 
控制 权 指派 给 一 组 或 一 个 用 户 ,但 不 授予 他 们 对 底层 物理 环境 的 访问 权 。 

资源 池 是 一 种 理想 的 解决 方案 ,适合 用 来 为 用 户 授予 创建 和 管理 其 虚拟 机 的 权限 ,同时 
限制 他 们 对 资源 的 使 用 。 例 如 ,可 以 为 需要 管理 虚拟 机 的 开发 小 组 提供 一 个 如 图 7-10 所 示 
的 资源 池 ,该 资源 池 共 有 时 钟 频率 为 12GHz 的 CPU 和 容量 为 12GB 的 内 存 。 然 后 ,开发 小 
组 可 以 创建 和 控制 自己 的 虚拟 机 ,但 无 论 启动 多 少 个 虚拟 机 ,资源 消耗 量 绝 不 会 超过 资源 池 
的 容量 。 资 源 池 可 以 进一步 细 分 ,可 以 将 12GHz 的 大 型 开发 资源 池 进 一 步 划分 成 更 小 的 资 
源 池 , 供 各 开发 人 员 单 独 使 用 。 这 样 ,资源 池 就 简化 了 虚拟 基础 架构 的 管理 ,无 须 在 置 备 虚 
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拟 机 时 单独 为 虚拟 机 预先 配置 资源 分 配额 。 为 充分 利用 共享 的 虚拟 基础 架构 ,可 以 对 资源 
池 进 行 配置 ,允许 它们 在 活动 高 峰 期 “爆发 ”以 使 用 群集 上 邻近 资源 池 中 任何 可 用 的 浮动 容 
量 甚至 闲置 资源 。 





ESX 主 机 


日 上 上 


“市 场 营 销 部 ” “软件 开发 部 " 12GHzCPU 
的 资源 池 的 资源 地 。 12GB 内 存 | 群集 资源 


群集 
7-10 资源 池 资源 分 配 示意 图 





资源 池 的 资源 分 配 也 可 以 动态 变更 ,这 一 特性 对 工作 负载 不 断 发 生 波动 的 企业 应 用 程 
序 来 说 非常 有 利 。 例 如 ,可 以 将 一 个 多 层 SAP 安装 包 配置 为 单个 资源 池 中 的 若干 联网 虚拟 
机 。 如 果 预 计 将 出 现 SAP 活动 高 峰 期 ,系统 管理 员 只 需 为 SAP 资源 池 分 配 更 多 的 CPU 和 
内 存 即 可 ,而 不 必 逐 个 调整 各 个 SAP 虚拟 机 的 资源 分 配 。 资 源 池 灵活 的 分 层 结构 使 用 户 能 
够 在 业务 部 门 之 间 轻 松 协 调 可 用 的 IT 资源 。 各 业务 部 门 可 以 采用 专用 基础 架构 ,同时 仍 
然 能 够 受益 于 资源 池 的 高 效 性 。 

(5) VMware VMotion 

VMware VMotion 支持 虚拟 机 在 主机 之 间 的 实时 迁移 。 作 为 动态 、 自 动 化 及 自我 优化 
的 数据 中 心 的 一 个 关键 启动 组 件 ,VMware VMotion 支持 在 物理 服务 器 之 间 实 时 迁移 运行 
中 的 虚拟 机 ,同时 又 可 以 避免 宕 机 ,确保 连续 的 服务 供应 以 及 处 理 过 程 的 完整 性 。 借 助 虚拟 
机 实时 迁移 技术 ,公司 在 执行 硬件 维护 时 无 须 安排 宕 机 和 中 断 业务 操作 。VMotion 还 可 以 
使 资源 池内 的 虚拟 机 持续 进行 自动 优化 .最 大 限度 地 提高 硬件 的 利用 率 、 灵 活性 和 可 用 性 。 
使 用 VMotion 在 物理 服务 器 之 间 实 时 迁移 虚拟 机 是 通过 三 项 基础 技术 实现 的 。 

首先 ,虚拟 机 的 整个 状况 封装 在 共享 存储 区 (如 光纤 通道 .iSCSI 存储 区 域 网 络 (SAN) 
或 网 络 连 接 存储 CNAS)) 上 的 一 组 文件 中 。VMware 的 群集 虚拟 机 文件 系统 C(VMFS) 人 允许 
多 个 ESX 并 行 访问 同一 组 虚拟 机 文件 。 

其 次 ,虚拟 机 的 内 存 映像 和 精确 的 执行 状况 可 通过 高 速 网 络 在 各 ESX 主机 之 间 迅 速 传 
递 。VMotion 通过 在 一 个 位 图 中 保持 对 现行 内 存 处 理 过 程 的 跟踪 ,使 用 户 在 传递 期 间 察觉 
不 到 性 能 变化 。 一 旦 整个 内 存 和 系统 状况 被 复制 到 目标 ESX 后 ,VMotion 就 会 中 止 源 虚拟 
机 的 运行 ,将 位 图 复制 到 目标 ESX, 并 在 目标 ESX 上 继续 运行 该 虚拟 机 。 整 个 过 程 在 千 兆 
位 以 太 网 上 只 需要 不 到 两 秒 钟 的 时 间 。 

再 次 ,虚拟 机 使 用 的 网 络 也 被 底层 ESX 虚拟 化 ,确保 即使 在 迁移 之 后 ,虚拟 机 的 网 络 身 
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份 标识 和 网 络 连接 也 能 保留 下 来 。VMeotion 会 在 此 过 程 中 管理 虚拟 MAC 地 址 。 一 旦 目标 
虚拟 机 被 激活 ,VMotion 就 会 对 网 络 路 由 器 执行 ping 指令 ,以 确保 它 知 道 该 虚拟 MAC 地 
址 的 新 物理 位 置 ,如 图 7-11 所 示 。 由 于 使 用 VMotion 进行 虚拟 机 迁移 可 保留 精确 的 执行 
状况 、 网 络 身份 标识 和 活动 的 网 络 连接 ,因此 可 以 实现 零 宕 机 ,不 会 对 用 户 造成 干扰 。 


应 用 程序 


图 7-11 VMotion 技术 示意 图 





(6) VMware DRS 

VMware DRS(Distributed Resource Scheduler) 可 达到 80% 的 利用 率 ,同时 能 够 保证 
较 高 的 服务 级 别 。VMware DRS(Distributed Resource Scheduler) 与 VMware vSphere 配 
合 使 用 ,可 以 在 虚拟 基础 架构 中 不 断 自动 平衡 同一 群集 中 各 虚拟 机 的 工作 负载 。 在 群集 中 
首次 启动 某 个 虚拟 机 时 ,VMware DRS 会 自动 找 出 具有 足够 资源 的 ESX 主机 来 运行 该 虚 
拟 机 。 如 果 所 选 主机 的 情况 发 生变 化 ,例如 ,其 他 虚拟 机 的 活动 增加 ,使 该 虚拟 机 无 法 实现 
最 低 资源 分 配 保障 ,VMware DRS 将 会 发 现 这 一 情况 ,并 在 群集 上 搜索 能 够 满足 该 虚拟 机 
资源 分 配 需求 的 备用 ESX 主机 。 然 后 VMware DRS 会 使 用 VMotion 自动 将 虚拟 机 迁移 
到 新 主机 上 ,用户 操作 和 应 用 程序 均 不 会 受到 任何 影响 。 这 样 ,在 虚拟 基础 架构 中 ,所 有 服 
务 器 工作 负载 便 可 实现 持续 平衡 。VMware DRS 通过 ESX Local Scheduler 和 vCenter 
Global Scheduler 来 进行 操作 。ESX Local Scheduler 可 根据 当前 的 工作 负载 来 决定 将 主机 
中 的 哪些 处 理 器 用 于 虚拟 机 的 执行 .只 要 发 现 其 他 的 主机 处 理 器 能 够 提供 更 多 容量 , 便 会 重 
新 分 配 虚拟 机 ,也 许 每 隔 几 毫秒 便 会 重新 分 配 一 次 。 与 此 不 同 ,vCenter Global Scheduler 
则 会 在 ESX 主机 所 在 的 整个 群集 内 持续 评估 放置 虚拟 机 的 最 佳 位 置 。 

Global Scheduler 会 决定 由 哪个 ESX 容纳 新 启动 的 虚拟 机 。 如 果 其 他 ESX 主机 能 够 
提供 更 适合 的 资源 集 ,Global Scheduler 就 会 使 用 DRS 重新 分 配 虚拟 机 。 

VMware DRS 可 以 配置 为 以 自动 或 手动 模式 运行 。 在 自动 模式 中 ,VMware DRS 会 将 
虚拟 机 迁移 到 群集 中 最 适合 的 主机 上 ,无 须 进行 任何 干预 。 在 手动 模式 中 , VMware DRS 
会 就 虚拟 机 的 最 佳 位 置 提出 建议 ,然后 让 系统 管理 员 决 定 是 否 进行 更 改 。 借 助 VMware 
DRS, 可 以 将 新 的 虚拟 机 放置 到 群集 上 ,而 不 是 特定 的 主机 服务 器 上 。 对 于 放置 的 位 置 以 及 
启动 的 时 间 ,VMware DRS 会 做 出 明智 的 决定 。VMware DRS 还 支持 在 特定 使 用 情况 下 应 
用 关联 性 和 反 关联 性 规则 。 例 如 , 反 关联 性 规则 可 使 群集 中 各 虚拟 机 始终 在 不 同 的 物理 服 
务 器 上 运行 ,以 便 实现 硬件 元 余 。 相 反 .关联 性 规则 可 使 两 个 具有 内 部 联网 要 求 的 虚拟 机 始 
终 位 于 同一 物理 主机 上 。 迁 移 虚 拟 机 后 ,VMware DRS 将 会 保留 全 部 已 分 配 的 资源 。 该 组 
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件 能 认识 到 : 如 果 在 具有 3GHz 处 理 器 的 八路 主机 上 ,虚拟 机 分 配 到 10% 的 CPU 资源 , 则 
迁移 到 处 理 器 速度 较 慢 的 双 路 主机 上 以 后 ,该 虚拟 机 就 需要 获得 更 高 比例 的 主机 资源 。 在 
群集 中 添加 新 的 ESX 主机 时 (这 在 vCenter 内 只 是 一 个 简单 的 拖 放 操作 ) ,VMware DRS 将 
立即 进行 响应 。 新 的 主机 将 会 扩展 群集 中 各 虚拟 机 可 以 使 用 的 资源 池 ,而 VMware DRS 会 
适当 地 将 虚拟 机 迁移 到 新 的 主机 上 ,以 重新 平衡 工作 负载 。 同 样 ,从 群集 中 删除 主机 时 ， 
VMware DRS 也 会 进行 响应 ,将 该 主机 上 的 虚拟 机 迁移 到 群集 中 的 其 他 主机 上 。 使 用 
VMware DRS 的 最 终结 果 是 ,数据 中 心 能 够 以 80% 以 上 的 利用 率 水 平 可 靠 地 运行 ,同时 可 
以 保障 所 有 应 用 程序 的 服务 级 别 。 利 用 VMware DRS, 只 需 进 行 最 少 的 容量 规划 工作 , 便 
可 从 x86 服务 器 的 投资 中 获取 更 高 的 回报 率 。 

(7) VMware HA 

VMware HA(High Availability) 为 虚拟 机 中 运行 的 应 用 程序 提供 了 易于 使 用 ,经 济 高 
效 的 高 可 用 性 功能 。 由 硬件 故障 所 导致 的 ESX 主机 的 缺失 不 再 是 灾难 性 的 事件 ,而 只 是 意 
味 着 群集 可 以 使 用 的 资源 池 缩 减 了 。 在 这 种 情况 下 ,VMware HA 会 在 群集 中 的 其 他 ESX 
主机 上 为 故障 主机 上 的 虚拟 机 重新 分 配 资 源 并 重新 启动 这 些 虚拟 机 , vCenter Global 
Scheduler 则 会 决定 放置 这 些 虚拟 机 的 最 佳 位 置 以 满足 资源 需求 。 

通常 可 以 借助 故障 切换 群集 产品 (如 Microsoft Cluster Services 或 Veritas Cluster 
Services) 来 实现 应 用 程序 的 高 可 用 性 ,但 这 些 产品 不 仅 价格 昂贵 ,而 且 难 以 配置 和 管理 。 故 
障 切 换 群集 需要 企业 支付 不 菲 的 费用 来 升级 操作 系统 或 购买 第 三 方 软件 ,并 且 所 保护 的 应 
用 程序 还 必须 支持 群集 。 

故障 切换 群集 还 会 消耗 大 量 资源 ,因为 备用 群集 节点 需要 独占 硬件 ,即便 它们 未 处 于 活 
动 状态 也 是 如 此 ,如 图 7-12 所 示 。 











物理 服务 器 
7-12 VMware HA 技术 示意 图 


VMware HA 无 须 进 行 任何 配置 即 可 提供 高 可 用 性 。 只 要 为 群集 或 主机 选择 VMware 
HA 选项 ,其 所 有 虚拟 机 均 会 得 到 保护 ,使 虚拟 机 在 主机 发 生 故 障 之 后 可 以 自动 重新 启动 。 
VMware HA 与 故障 切换 群集 的 不 同 之 处 在 于 .重新 启动 虚拟 机 时 会 有 一 小 段 宕 机 时 间 , 但 
对 于 大 多 数 应 用 程序 而 言 ,极其 短暂 的 中 断 是 可 以 接受 的 ,而 且 VMware HA 可 以 避免 故 
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障 切 换 群 集 所 引起 的 费用 和 复杂 性 。 需 要 注意 的 一 点 是 .在 受 VMware HA 保护 的 群集 
中 ,vCenter 管理 主机 不 会 发 生 单 点 故障 。 在 每 台 服务 器 上 安装 的 VMware HA 代理 会 不 
断 向 资源 池 中 的 其 他 服务 器 发 出 “心跳 ”信和 号, 一旦 “心跳 ”信号 丢失 ,所 有 受 影响 的 虚拟 机 都 
会 立即 在 其 他 服务 器 上 重新 启动 。 正 是 由 于 VMEFS 群集 文件 系统 允许 多 个 ESX 拥有 对 相同 
虚拟 机 文件 的 读 写 权 限 , 才 使 虚拟 机 的 重新 启动 得 以 实现 。VMware HA 可 确保 资源 池 中 始 
终 有 充足 的 资源 ,以 便当 某 个 服务 器 出 现 故 障 时 ,能 够 在 其 他 物理 服务 器 上 重新 启动 虚拟 机 。 

(8) VMware Consolidated Backup 

VMware Consolidated Backup 提供 了 不 经 局 域 网 的 备份 功能 (LAN Free Backup), 实 
现 了 零 宕 机 ,如 图 7-13 所 示 。VMware Consolidated Backup 提供 了 一 个 易于 使 用 的 集中 式 
工具 来 执行 不 经 局 域 网 的 备份 操作 ,这 种 操作 可 保留 文件 级 别 的 可 视 性 。VMware 
Consolidated Backup 将 在 停止 虚拟 机 中 的 应 用 程序 后 为 运行 中 的 虚拟 机 创建 快照 ,从 而 在 
磁盘 中 集中 处 理 备份 工作 ,以 确保 文件 系统 的 一 致 性 。 然 后 , 巾 一 个 Windows 备份 代理 服 
务 器 来 装载 这 些 虚拟 磁盘 快照 ,该 服务 器 可 以 使 用 标准 的 备份 代理 程序 将 备份 存储 到 磁带 
或 磁盘 设备 中 。VMware Consolidated Backup 预先 集成 了 常用 的 备份 实用 程序 ,并 且 提 供 
了 预 处 理 和 后 处 理 脚 本 ,无 须 任 何 额 外 准备 工作 便 可 轻松 实施 。VMware Consolidated 
Backup 将 透明 地 运行 ,而 不 需要 中 断 虚拟 机 的 活动 。 备 份 处 理 过 程 在 ESX 主机 外 部 进行 ， 
因此 不 会 对 虚拟 机 中 重要 应 用 程序 所 需 的 CPU 和 网 络 资源 造成 影响 。 备 份 期 间 , 不 会 发 
生 系 统 中 断 , 也 不 会 影响 到 生产 服务 器 。 由 于 Consolidated Backup 只 需 在 代理 服务 器 (而 
不 是 每 个 虚拟 机 ) 上 运行 一 个 备份 代理 程序 ,因此 减少 了 所 需 的 备份 代理 程序 许可 证 数量 ， 
并 提高 了 可 管理 性 。 使 用 代理 服务 器 还 可 以 降低 ESX 的 负载 ,使 ESX 可 以 在 同一 物理 服 
务 器 上 运行 更 多 的 虚拟 机 。 基 于 文件 的 完整 增 量 备份 在 运行 Microsoft Windows 操作 系统 
的 虚拟 机 上 受到 支持 ;而 针对 灾难 恢复 方案 的 完整 映像 备份 则 适用 于 所 有 虚拟 机 ,无 论 虚拟 
机 的 客户 操作 系统 是 什么 。 





备份 磁盘 ”磁带 


1 的 "9 


图 7-13 VMware Consolidated Backup 备份 技术 示意 图 


下 面 介绍 VMware 虚拟 化 软件 的 优势 。 
(1) VMware vSphere 可 以 降低 成 本 
全 球 有 20 000 多 家 IT 企业 采用 了 VMware 虚拟 化 软件 ,该 软件 为 这 些 企业 节约 了 
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数 十 亿美 元 的 硬件 成 本 和 运营 成 本 。 随 着 处 理 器 功能 的 日 益 强 大 、VMware vSphere 在 更 多 
低 成 本 硬件 上 得 到 认证 ,以 及 该 套件 不 断 扩 展 以 适应 最 苛刻 的 企业 工作 负载 条 件 , 由 
VMware vSphere 所 节约 的 成 本 还 会 不 断 提 高 。 

(2) 实现 服务 器 的 整合 与 控制 ,同时 使 服务 器 利用 率 最 大 化 

通过 在 数量 更 少 、 可 高 度 扩 展 并 可 靠 的 企业 级 服务 器 上 的 虚拟 机 中 运行 软件 应 用 
程序 ,控制 服务 器 数量 的 膨胀 。VMware vSphere 的 客户 通常 能 够 在 每 个 物理 处 理 器 上 
整合 10 个 或 更 多 个 虚拟 机 ,因此 大 大 提高 了 服务 器 利用 率 ,并 有 效 控制 了 服务 器 数量 
的 脱 胀 。 

通过 整合 未 充分 利用 的 服务 器 ,就 不 再 需要 为 新 项 目 另外 购置 硬件 ,从 而 减少 资金 投入 
成 本 。 通 过 从 数据 中 心 删除 服务 器 ,就 可 以 在 供电 、 制 冷 和 场地 方面 减少 一 定 比例 的 运营 成 
本 。 由 于 一 个 虚拟 机 目前 最 多 可 以 支持 4 个 处 理 器 和 16GB 的 内 存 , 因 此 企业 当前 95% 的 
工作 负载 可 以 实现 虚拟 化 和 整合 。 

(3) 在 企业 范围 内 实现 标准 化 

由 于 虚拟 化 是 将 软件 从 硬件 中 抽 离 出 来 以 创建 可 移植 的 虚拟 机 ,因此 利用 VMware 
vSphere 可 以 在 企业 范围 内 更 轻松 地 实现 数据 中 心 的 标准 化 。VMware vSphere 可 以 在 所 
有 主要 硬件 供应 商 的 塔 式 . 机 架 和 刀片 式 服务 器 上 运行 大 多 数 主流 操作 系统 ,这 大 大 提高 了 
现 有 的 多 供应 商 硬件 投资 的 价值 。 

(4) 简化 IT 操作 ,提高 管理 效率 

VMware vSphere 可 以 简化 人 工 和 资源 密集 型 IT 操作 ,例如 跨越 不 同 的 硬件 、 操 作 系 
统 和 软件 应 用 程序 环境 进行 服务 器 的 置 备 与 维护 ,使 更 少 的 IT 员工 能 够 承担 更 多 的 工作 
负载 。 

此 外 ,vCenter 提供 的 统一 监控 和 管理 平台 可 显著 提高 系统 管理 员 的 工作 效率 ,使 每 个 
系统 管理 员 能 够 监控 并 有 效 管理 大 型 基础 架构 资源 池 。 

(5) 减少 业务 部 门 的 IT 协调 成 本 

各 个 业务 部 门 的 协调 工作 也 许 是 最 为 棘手 ,也 最 容易 被 忽视 的 工作 之 一 : 它 耗费 了 IT 
员工 的 大 量 时 间 。 但 IT 企业 采用 VMware vSphere 之 后 ,由 于 硬件 管理 与 软件 管理 分 开 
了 ,因此 部 门 协调 的 成 本 可 大 幅 减少 。 例 如 ,在 采用 VMware vSphere 之 前 ,IT 员工 需要 花 
费 大 量 的 时 间 , 针 对 业务 部 门 的 应 用 程序 来 协商 硬件 宕 机 时 间 。 现 在 ,由 于 可 以 将 运行 中 的 
软件 从 需要 维护 的 硬件 上 移 走 ,而 不 会 对 业务 部 门 产生 影响 ,因此 可 以 随时 执行 硬件 宕 机 ， 
从 而 节约 整体 IT 管理 成 本 。 

(6) 简化 软件 开发 与 测试 

VMware vSphere 在 许多 方面 简化 了 软件 的 开发 与 测试 。 大 幅 简 化 了 一 般 的 耗 时 性 工 
作 , 如 配置 服务 器 、 置 备 服务 器 以 及 将 配置 存档 和 还 原 ,从 而 提高 了 开发 人 员 的 工作 效率 。 
此 外 ,使 用 虚拟 机 将 开发 ,测试 和 转 储 环境 整合 到 共享 硬件 后 ,所 需 的 硬件 比 原来 要 少 得 多 。 
最 后 ,由 于 使 用 了 虚拟 机 ,可 以 更 轻松 地 扩大 测试 范围 并 提高 软件 质量 。 

(7) VMware vSphere 简化 了 管理 

VMware vSphere 可 将 所 有 基于 x86 的 操作 系统 的 管理 统一 到 跨越 数据 中 心 的 单个 虚 
拟 硬件 平台 上 。 它 使 置 备 ,取消 置 备 和 回 深 的 速度 达到 了 实时 级 别 。 另 外 , 它 还 强制 基于 模 
板 ( 而 不 是 策略 ) 来 部 署 服务 器 ,与 手动 创建 服务 器 相 比 ,管理 员 使 用 “黄金 " 主 模板 后 节省 了 
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大 量 时 间 。 由 于 虚拟 基础 架构 是 统一 的 ,因此 服务 器 的 部 署 过 程 也 是 一 致 的 ,这 使 运营 风险 
大 大 降低 了 。 

(8) 安全 集中 的 数据 中 心 管理 

VMware vSphere 简化 了 监控 ,管理 ,报告 和 远程 访问 等 操作 ,用 户 可 以 从 数据 中 心 内 
的 任意 位 置 通过 vSphere Client 来 执行 这 些 操作 。 如 果 要 对 系统 软件 和 配置 执行 操作 , 则 
无 须 访问 服务 器 。 浏 览 器 形式 的 客户 端 使 用 户 可 以 像 发 送 书签 URL 一 样 轻松 地 访问 虚 
拟 机 。 

此 外 ,VMware vSphere 提供 了 跨 Windows、Linux 和 NetWare 服务 器 的 统一 管理 平 
台 。 现 在 ,管理 员 只 需 学 习 一 种 置 备 和 监控 系统 的 方法 ,而 不 必 每 部 署 一 个 操作 系统 版 
本 就 学 习 一 种 相应 的 方法 ,这 样 可 以 降低 培训 成 本 ,并 且 使 各 个 操作 系统 应 用 的 策略 更 
加 一 致 。 

(9) 确保 服务 器 构建 过 程 的 一 致 性 

vCenter 基于 模板 来 置 备 服务 器 。 由 于 基于 预先 配置 的 操作 系统 和 应 用 程序 组 合 来 进 
行 置 备 ,因此 IT 管理 员 可 以 确保 环境 中 运行 的 所 有 服务 器 在 安全 性 和 配置 方面 均 符合 当 
前 的 最 佳 做 法 。 因 此 ,各 个 Exchange Server 彼此 非常 相似 。 

由 不 同 管理 员 构建 的 服务 器 彼此 也 是 相似 的 。 这 意味 着 故障 排除 更 加 简单 ,发生 端口 
意外 开放 或 残留 漏洞 服务 的 可 能 性 几乎 降低 为 零 。 基 础 架构 从 根本 上 实现 了 合理 化 ,避免 
了 反常 的 差异 。 

(10) 提高 修补 程序 大 范围 应 用 的 成 功率 

既然 基础 架构 实现 了 合理 化 ,虚拟 基础 架构 中 内 置 的 服务 器 构建 过 程 一 致 ,那么 IT 管 
理 员 就 可 以 确信 ,如果 某 个 修补 程序 没有 中 断 一 种 类 型 的 服务 器 , 它 就 不 会 中 断 其 他 类 型 的 
服务 器 。 并 且 可 以 在 测试 用 的 服务 器 中 创建 与 当前 生产 系统 完全 相同 的 系统 副本 ,以 进行 
修补 程序 和 升级 测试 。 所 创建 的 系统 副本 与 还 原 的 备份 或 磁盘 映像 不 同 ,因为 虚拟 机 副本 
与 源 系统 完全 相同 (包括 虚拟 硬件 层 ) 。 此 外 ,借助 虚拟 基础 架构 中 提供 的 快照 和 回 滚 功能 ， 
虚拟 机 在 安装 修补 程序 后 如 果 出 现 故障 而 无 法 运行 , 则 可 以 立即 回 滚 到 前 一 个 已 知 的 正常 
状况 。 

(11) 部 署 虚拟 工具 可 简化 更 改 管理 

虚拟 工具 是 经 过 完整 预 配置 的 虚拟 机 ,包含 操作 系统 和 软件 应 用 程序 。 虚 拟 工 具 结合 
了 软件 部 署 的 简便 性 与 预 配置 设备 所 具有 的 优势 ,正在 逐渐 使 软件 分 发 模式 发 生 转 变 。 对 
解决 方案 提供 商 来 说 ,构建 虚拟 工具 比 构建 硬件 工具 更 简单 、 更 经 济 。 防 火 墙 恰恰 反映 了 这 
种 模式 转变 。 最 初 的 网 络 防火 墙 是 软件 程序 。 要 安装 防火 墙 .用 户 就 必须 购买 计算 机 ,安装 
支持 的 操作 系统 ,然后 安装 防火 墙 并 配置 所 有 功能 。 为 了 降低 防火 墙 部 署 的 复杂 性 ,供应 商 
构建 了 基于 硬件 的 防火 墙 。 这 些 防火 墙 工 具 可 以 是 标准 硬件 .也 可 以 是 定制 硬件 ,其 中 包含 
最 低 配置 的 操作 系统 和 完整 的 防火 墙 程序 。 针 对 该 问题 的 另 一 种 更 新 的 解决 方法 是 : 防火 
墙 虚拟 工具 。 使 用 这 种 方法 时 , 预 配置 的 防火 墙 会 安装 在 虚拟 机 中 ,并 且 可 以 部 署 到 现 有 的 
硬件 上 。 

(12) 简化 了 旧版 软件 的 迁移 

虚拟 基础 架构 允许 根据 需要 在 更 高 版 本 的 硬件 上 使 用 虚拟 机 继续 运行 旧版 应 用 程序 
(需要 旧版 操作 系统 )。 这 一 特性 经 证 实 有 助 于 公司 延长 旧版 软件 资产 的 生命 周期 ,增加 了 
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其 使 用 价值 ,同时 避免 了 高 额 的 移植 成 本 。 在 虚拟 机 中 管理 旧版 系统 可 以 大 大 提高 可 靠 性 ， 
减少 维护 费用 。 

(13) VMware vSphere 可 提高 敏捷 度 

VMware vSphere 针对 IT 部 门 提 供 了 一 些 功能 ,可 显著 提高 IT 部 门 对 业务 部 门 需求 
的 响应 速度 。 由 于 虚拟 基础 架构 切断 了 软 硬 件 之 间 的 制约 关系 ,因此 IT 公司 可 以 更 灵活 、 
快速 地 置 备 新 服务 器 和 调整 资源 ,以 适应 业务 要 求 的 变化 。 

(14) 瞬时 置 备 新 服务 器 

无 论 是 一 周 后 需要 一 个 新 服务 器 ,还 是 一 小 时 后 需要 50 个 服务 器 ,对 VMware 
vSphere 来 说 都 不 是 问题 , 它 提供 了 强大 的 瞬时 置 备 功能 ,可 以 跨 Windows、Linux、Solaris 
x86 或 NetWare 等 多 个 操作 系统 实时 置 备 和 取消 置 备 服务 器 。IT 公司 可 以 实施 及 时 的 服 
务 器 置 备 方案 ,使 业务 部 门 能 够 根据 需要 置 备 他 们 自己 的 服务 器 。 设 想 一 下 , 当 业 务 部 门 打 
电话 申请 新 的 服务 器 时 ,立即 告诉 他 们 新 服务 器 已 经 启动 并 开始 运行 ,正在 等 待 他 们 登录 会 
是 怎样 的 情景 。 同 样 ,扩展 应 用 程序 ,甚至 执行 需要 重新 引导 服务 器 的 日 常 维护 请 求 等 操 
作 , 均 能 以 更 快 的 速度 完成 。 

借助 VMware vSphere, 管 理 员 可 以 从 标准 服务 器 模板 库 中 快速 选择 “黄金 "模板 以 进 
行 新 服务 器 部 署 ,并 在 几 秒 钟 内 将 模板 部 署 到 硬件 池 中 。VMware vSphere 可 执行 文件 复 
制 ,以 便 为 所 选 的 服务 器 模板 创建 一 个 新 实例 ,然后 对 其 进行 配置 以 便 使 用 。 

服务 器 部 署 成 为 一 项 如 此 低 成 本 的 操作 ,以 致 IT 部 门 创建 服务 器 的 成 本 远 远 低 于 部 
署 完整 物理 服务 器 的 成 本 ,例如 ,创建 一 个 临时 服务 器 来 测试 Beta 版 应 用 程序 软件 成 为 
轻而易举 的 事 。 使 用 VMware vSphere 置 备 服 务 器 只 需 几 秒 钟 , 而 手动 部 署 服 务 器 则 一 
般 需 要 几 个 小 时 或 几 天 时 间 ,两 相 比 较 , 采 用 虚拟 基础 架构 所 节约 的 成 本 就 迅速 显现 出 
来 入。 

(15) 为 业务 部 门 提供 了 实用 程序 计算 功能 ,以 保持 稳定 的 服务 级 别 

借助 资源 池 ,IT 公司 可 以 对 应 用 程序 和 工作 负载 要 求 的 变化 迅速 做 出 响应 ,根据 业务 
优先 级 来 轻松 调整 计算 资源 ,以 确保 服务 级 别 。IT 公司 可 指定 用 来 控制 虚拟 机 资源 分 配 的 
规则 和 优先 级 ,VMware vSphere 将 会 持续 自动 地 优化 虚拟 机 的 位 置 , 以 便 提高 硬件 的 利用 
率 、 灵 活性 和 可 用 性 。 这 样 .IT 公司 就 能 为 业务 部 门 提供 专用 的 基础 架构 ,同时 仍 能 通过 资 
源 池 来 获得 更 高 的 硬件 利用 率 。 采 用 VMware vSphere 后 ,只 需 部 署 并 使 用 少量 的 平台 即 
可 灵活 应 对 不 断 变化 的 需求 。 

(16) 使 所 有 应 用 程序 均 能 受益 于 高 端 硬件 的 性 能 和 可 靠 性 的 提高 

通过 VMware vSphere, 可 以 在 数据 中 心 以 低 成 本 部 署 高 端 硬 件 , 例 如 具有 宛 余 组 件 
的 机 架 服务 器 和 4 向 刀片 式 服务 器 。 与 低 端 硬件 相 比 ,高 端 服务 器 虽然 成 本 较 高 ,但 可 
以 承担 更 多 的 工作 负载 ,因此 ,对 高 端 硬件 的 初始 投资 会 迅速 得 到 回报 ,具体 表现 为 利用 
率 得 到 提高 以 及 由 于 管理 的 服务 器 较 少 而 节约 了 运营 成 本 。 此 外 ,每 一 项 工作 负载 都 可 
以 根据 需要 利用 高 端 硬件 的 增强 功能 ,从 而 能 够 为 最 终 用 户 提供 卓越 的 应 用 程序 性 能 和 
可 靠 性 。 

(17) VMware vSphere 可 增强 安全 性 

VMware vSphere 提供 了 一 致 ,安全 、 可 审核 的 数据 中 心 环境 ,数据 中 心 可 以 由 非 同 类 
硬件 构成 。 虚 拟 机 内 运行 的 操作 系统 仍然 需要 安全 性 管理 和 漏洞 修补 程序 ,但 由 于 
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VMware vSphere 强制 实行 基于 角色 的 精细 访问 权限 控制 ,因此 可 以 大 大 提高 操作 系统 的 
稳定 性 和 安全 性 ,简化 访问 权限 的 管理 。 

(18) 集中 保护 和 审核 数据 中 心 

由 于 通过 细致 而 灵活 的 访问 权限 控制 来 保护 基础 架构 的 虚拟 机 配置 和 远程 访问 ,因此 
仅 有 极 少 数 IT 员工 需要 直接 访问 VMware vSphere 服务 器 硬件 。 管 理 员 和 最 终 用 户 可 以 
远程 执行 所 有 的 服务 器 置 备 和 配置 操作 ,同时 ,综合 审核 日 志 中 会 记录 所 有 重要 的 操作 。 此 
外 ,也 可 以 通过 管理 虚拟 机 的 访问 权限 来 控制 用 户 对 自身 未 提供 足够 安全 性 的 应 用 程序 的 
访问 。 

(19) 在 硬件 级 别 隔离 故障 和 安全 性 

由 于 各 虚拟 机 在 运转 期 间 彼此 完全 隔离 ,因此 除非 通过 网 络 通 信 , 否 则 运转 异常 或 被 危 
及 的 应 用 程序 不 会 影响 到 同一 环境 中 的 其 他 虚拟 机 。 借 助 故 障 隔离 功能 ,经 过 适当 配置 的 
虚拟 机 可 以 更 好 地 抵御 数字 攻击 ,因为 一 个 虚拟 机 不 会 危及 其 他 虚拟 机 。 通 过 VMware 
vSphere 虚拟 网 络 连接 ,管理 员 能 够 灵活 地 将 虚拟 机 从 公司 网 络 中 隔离 出 来 ,或 者 使 它们 与 
网 络 中 的 其 他 物理 机 完全 对 等 。 

(20) VMware vSphere 可 以 提高 可 用 性 

VMware vSphere 可 以 实现 硬件 维护 和 服务 器 备份 所 需 的 零 宕 机 ,从 而 显著 提高 应 用 
程序 的 可 用 性 ,使 应 用 程序 的 正常 运行 时 间接 近 100%。 此 外 ,VMware vSphere 还 可 以 通 
过 VMware HA 轻松 地 使 虚拟 机 以 低 成 本 实现 高 可 用 性 。 

(21) 支持 零 宕 机 维护 

虚拟 基础 架构 最 值得 关注 的 一 点 或 许 就 在 于 ,IT 管理 部 门 在 安排 员工 任务 方面 具有 更 
大 的 灵活 性 。 通 过 将 硬件 维护 任务 与 软件 维护 任务 分 开 , 因 需要 宕 机 而 推迟 的 管理 操作 大 
量 减 少 。 借 助 VMware vSphere,IT 部 门 只 需 将 ESX 主机 置 于 维护 模式 即 可 ,DRS 会 自动 
将 所 有 虚拟 机 迁移 到 资源 池 中 的 另 一 个 ESX 上 ,这 样 ,维护 物理 服务 器 时 就 不 需要 宕 机 。 
维护 工作 可 以 在 主要 工作 时 段 ( 上 午 8 时 到 下 午 5 时 ) 执 行 , 而 不 需要 在 夜里 和 周末 安排 罕 
机 。 同 样 ,可 以 随时 为 运行 中 的 生产 系统 创建 快照 ,以 进行 调试 或 修补 程序 测试 。 如 果 新 的 
修补 程序 或 应 用 程序 升级 出 现 问 题 ,可 以 进行 离线 检查 ,而 不 需要 中 止 服务 器 来 进行 维护 。 
这 样 就 能 安排 最 有 能 力 解 决 问题 的 员工 以 最 快 的 速度 解决 该 问题 。 

(22) 支持 零 宕 机 备份 : 

借助 Consolidated Backup ,可 以 将 虚拟 机 作为 虚拟 磁盘 来 备份 或 者 使 其 具有 文件 级 别 
的 可 视 性 ,而 不 需要 宕 机 ,也 不 会 对 虚拟 机 和 LAN 的 性 能 产生 任何 影响 。Consolidated 
Backup 将 在 停止 客户 操作 系统 的 文件 系统 后 创建 虚拟 机 快照 ,以 确保 文件 的 完整 性 。 然 
后 ,由 一 个 Windows 备份 代理 服务 器 来 装载 这 些 虚拟 磁盘 快照 ,该 服务 器 可 以 使 用 标准 的 
备份 代理 程序 将 备份 存储 到 磁带 或 磁盘 设备 中 。 

(23) 通过 简单 .迅速 的 灾难 恢复 功能 提供 业务 连续 性 高 级 保护 

传统 的 高 可 用 性 解决 方案 通常 比较 复杂 和 昂贵 ,一 般 专 门 用 于 关键 应 用 程序 。 而 
VMware vSphere 降低 了 实现 高 可 用 性 的 经 济 成 本 ,使 至 今 仍 未 受 保护 的 大 多 数 软件 应 用 
程序 可 以 实现 高 可 用 性 。 借 助 VMware HA, 公 司 可 以 实施 一 个 统一 的 灾难 恢复 平台 ,在 
发 生硬 件 故 障 时 可 以 恢复 多 个 生产 虚拟 机 ,而 不 需要 投入 大 量 资 金 来 进 行 生产 硬件 与 灾 
难 恢 复 硬件 的 一 对 一 映射 。VMware HA 以 低 成 本 为 虚拟 机 中 运行 的 所 有 应 用 程序 提供 
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了 高 可 用 性 。 与 其 他 专用 于 特定 操作 系统 或 软件 应 用 程序 的 高 可 用 性 解决 方案 不 同 ， 
VMware HA 可 为 整个 IT 环境 提供 一 致 .易于 管理 的 高 可 用 性 解决 方案 ,作为 可 靠 的 “第 
一 道 防线 ”。 

(24) 使 用 VMware vSphere 构建 虚拟 化 企业 

作为 唯一 可 供 生产 环境 使 用 的 虚拟 化 套件 ,VMware vSphere 已 在 20 000 多 家 规模 不 
等 的 企业 客户 中 实施 ,在 各 种 环境 和 应 用 程序 中 均 得 到 验证 。 该 套件 针对 各 种 应 用 广泛 的 
硬件 .操作 系统 和 软件 应 用 程序 进行 了 充分 优化 和 严格 测试 ,并 获得 了 认证 ,可 用 来 在 企业 
范围 内 实现 标准 化 ,而 不 管 企 业 的 操作 系统 和 硬件 如 何 。VMware vSphere 提供 了 内 置 的 
管理 资源 优化 .应 用 程序 可 用 性 和 操作 自动 化 等 功能 ,不 仅 可 以 节约 改造 成 本 ,而 且 还 
可 以 提高 运营 效率 、 灵 活性 和 IT 服务 级 别 。VMware vSphere 可 扩展 以 支持 任何 规模 的 
IT 环境 ,而 不 局 限于 任何 操作 系统 ,因此 客户 能 够 自由 选择 所 需 的 操作 系统 和 软件 应 用 
程序 。 

5. 服务 器 虚拟 化 主要 产品 (Microsoft Hyper-V) 

在 VMware 公司 成 立 的 第 4 年 ,也 就 是 在 2003 年 ,微软 收购 了 推出 了 Virtual PC 软件 
的 Connectix 公司 ,并 在 其 后 推出 了 服务 器 虚拟 化 (Virtual Server) 软 件 ,如 图 7-14 所 示 , 开 
始 了 微软 的 虚拟 化 之 路 。 
































物理 设备 园 应 用 程序 





7-14 “Virtual Server 虚拟 化 架构 示意 图 


在 2008 年 ,推出 了 最 新 的 虚拟 化 产品 Hyper-V, 如 图 7-15 所 示 。Hyper-V 是 一 个 
Hypervisor( 系 统管 理 程序 ) ,开发 代号 为 Viridian, 它 的 主要 作用 就 是 管理 .调度 虚拟 机 的 
创建 和 运行 ,并 提供 硬件 资源 的 虚拟 化 。Hyper-V 是 微软 伴随 Windows Server 2008 最 新 
推出 的 服务 器 虚拟 化 解决 方案 ,集成 在 Windows Server 2008 中 。 

Hyper-V 的 本 质 是 一 个 VMM( 虚 拟 化 管理 程序 ) ,与 微软 之 前 的 Virtual Server 系列 产 
品 处 在 的 层次 不 同 , 它 更 接近 于 硬件 ,这 一 点 比较 像 VMware 的 ESX Server 系列 ,实际 上 
Hyper-V 属于 微软 的 第 一 个 裸 金 属 虚 拟 化 产品 (Bare-Metal Virtualization)。 其 架构 如 
图 7-15 所 示 。 

(1) Hyper-V 的 功能 

Hyper-V 的 功能 如 下 : 

。 支持 32 位 (X86) & 64 位 (X64) VMs; 
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7-15 ”Hyper-V 架构 示意 图 


支持 大 内 存 (每 VM 为 64GB) ; 

支持 多 CPU( 最 多 4 核 ); 

。 支持 群集 (Clustering) 的 快 转 移 , 有 高 可 用 性 ; 

。 支持 Volume Shadow Service; 

。 支持 虚拟 机 “直达 ”(Pass-through) 硬 盘 ; 

支持 虚拟 机 快照 (Snapshots); 

。 支持 最 新 的 硬件 架构 (VSP/VSC/VMBus)Disk、Networking、Input、Video; 
有 完善 的 网 络 服 务 VLANs 和 NLB; 

有 DMTEF 标准 的 WMI 管理 界面 ; 

。 支持 Server Core 和 全 Windows 安装 。 

(2) Hyper-V 的 优点 

Hyper-V 提供 先进 的 裸 金 属 虚 拟 化 技术 ,优点 如 下 。 

@ 对 64 位 高 性 能 体系 的 支持 。 全 新 的 64 位 微 内 核 Hypervisor 架构 使 HyperV 可 以 


提供 更 广泛 的 设备 支持 ,如 对 大 容量 内 存 的 支持 等 ,以 及 增强 的 性 能 和 提升 安全 性 ,能 够 承 
载 更 多 的 虚拟 机 运行 实例 。 


@ 支持 广泛 的 操作 系统 。 为 了 更 好 地 满足 企业 的 IT 现 有 环境 及 未 来 的 IT 发 展 趋势 ， 


HyperV 广泛 支持 在 虚拟 化 环境 中 同时 运行 同类 型 的 操作 系统 ,包括 32 位 和 64 位 的 多 种 
不 同 服务 器 平台 操作 系统 ,例如 Windows、Linux 等 操作 系统 。 


@ 支持 对 称 多 处 理 器 。 面 对 当今 以 对 称 多 处 理 器 (SMP) 为 主流 的 服务 器 ,Hyper-V 可 


在 一 个 虚拟 机 环境 中 最 多 支持 四 个 虚拟 处 理 器 ,使 用 户 可 以 在 虚拟 机 中 感受 到 多 线程 应 用 
程序 的 性 能 优势 。 


图 对 虚拟 VLAN 的 支持 。 为 了 更 好 地 满足 企业 环境 中 的 网 络 环境 的 定制 ,保证 虚 
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拟 机 间 信 息 的 相互 隔离 ,确保 信息 安全 ,在 Hyper-V 中 ,管理 员 可 以 通过 虚拟 机 设置 对 虚 
拟 化 环境 中 的 虚拟 机 划分 VLAN ,以 保证 虚拟 机 间 信 息 的 相互 隔离 ,确保 信息 安全 。 

@ 网 络 负载 均衡 。HyperV 中 包含 了 全 新 的 虚拟 交换 功能 ,这 意味 着 虚拟 机 可 用 简单 
的 方法 配置 运行 Windows 网 络 负载 均衡 CNLB) 服 务 。HyperV 可 在 NLB 群集 中 跨 多 个 
服务 器 为 网 络 客户 端 服务 器 应 用 分 配 负载 。NLB 对 确保 无 状态 应 用 (如 在 Internet 信息 服 
务 (IIS) 上 运行 的 基于 Web 的 应 用 ) 在 工作 负载 增加 时 通过 添加 额外 的 服务 器 对 其 扩展 极 
其 有 用 。 在 负载 增加 时 ,NLB 允许 添加 额外 的 服务 器 来 实现 可 扩展 性 。 此 外 ,NLB 还 允许 
用 户 轻松 替换 故障 服务 器 来 实现 可 靠 性 。 

@ 丰富 的 性 能 监控 指标 。 为 了 更 好 地 监控 虚拟 化 平台 中 的 宿主 服务 器 和 其 上 和 运行 的 
虚拟 机 实例 的 性 能 状态 ,通过 Hyper-V 与 SCOM 相 结合 ,管理 员 不 仅 对 宿主 服务 器 可 以 进 
行 全 方位 的 性 能 监控 ,而 且 可 以 同样 高 效 细致 地 监控 虚拟 机 的 各 方面 性 能 。 在 减少 管理 员 

工作 量 的 同时 ,高 效 地 监控 系统 的 运行 状况 。 

@ 完整 .开放 的 虚拟 化 扩展 架构 。 为 了 企业 未 来 的 发 展 ,Hyper-V 提供 了 良好 的 扩展 
开发 框架 和 API, 以便 企业 能 够 将 自行 特有 的 硬件 设备 融入 虚拟 化 平台 中 ,为 虚拟 机 提供 虚 
拟 化 服务 。Hyper-V 中 包含 的 基于 标准 的 Windows 管理 架构 (WMDI) 接 口 以 及 API 接口 使 
软件 供应 商 和 开发 人 员 可 以 快速 创建 自 定义 的 工具 、 程 序 ,并 对 虚拟 化 的 平台 进行 改善 。 

(3) 微软 针对 Hyper-V 的 管理 工具 

微软 通过 Microsoft System Center 来 对 虚拟 机 进行 管理 ,包括 以 下 三 大 组 件 。 

Operations Manager 2007 ,具备 以 下 功能 。 

。 针对 IT 环境 提供 全 面 的 监控 。 

。 涉及 诸多 操作 系统 和 应 用 程序 数 以 千 计 的 事件 跟踪 和 性 能 监视 。 

。 端 到 端的 服务 管理 。 

@ Configuration Manager 2007, 具 备 以 下 功能 。 

。 使 得 操作 系统 和 应 用 程序 部 署 更 加 安全 、 可 靠 。 

。 配置 管理 ,使 得 系统 更 加 安全 。 

。 针对 服务 器 、 桌 面 , 移 动 设备 的 全 面 资产 管理 。 

@ Data Protection Manager 2007 ,具备 以 下 功能 。 

。 提供 一 致 的 数据 保护 。 

。 针对 分 公司 的 中 央 备 份 提供 连续 的 数据 保护 。 

。 针对 数据 中 心 备份 的 改进 。 

。 报告 及 监控 功能 。 

(4) 通过 SCVMM 实现 的 功能 

通过 SCVMM(System Center Virtual Machine Manager) 实现 以 下 功能 。 

@ 物理 机 到 虚拟 机 的 转换 (P2V) 。 

@ 虚拟 机 到 虚拟 机 的 转换 (V2V) (分 为 Virtual Server 到 HyperV, 以 及 VMware 到 
Hyper-V) 。 

回 PowerShell 脚本 (自动 化 数据 中 心 ) 。 

@ 可 扩展 控制 台 。 

加 支持 虚拟 机 资源 库 。 
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Hyper-V 服务 器 场 管理 。 

@ 模板 /克隆 。 

此 外 ,Hyper-V 的 先天 优势 是 可 以 兼容 大 量 的 驱动 程序 ,而 不 必 为 虚拟 机 开发 专用 的 
驱动 程序 ,只 要 设备 能 在 Windows Server 2008 下 工作 ,那么 HyperV 虚拟 机 就 能 使 用 这 些 
设备 资源 ,再 加 上 Windows 驱动 程序 天 生 就 比 其 他 操作 系统 (如 Linux) 的 驱动 程序 丰富 ， 
因此 在 硬件 支持 上 Hyper-V 具有 无 可 比拟 的 优势 。 所 以 Hyper-V 最 合适 的 应 用 场合 就 是 
单纯 的 微软 服务 器 环境 以 及 微软 相关 的 服务 ,如 Active Directory、Exchange、SQL Server、 
SharePoint 等 。 这 些微 软 本 身 的 产品 在 Hyper-V 下 不 但 性 能 比 其 他 的 虚拟 机 产品 更 好 ,从 
兼容 性 和 微软 群集 服务 的 设 定 以 及 管理 维护 上 来 说 ,也 更 具有 优势 。 

但 HyperV 在 CPU 方面 的 限制 是 要 求 处 理 器 必须 支持 AMD-V 或 者 Intel VT 技术 ， 
也 就 是 说 ,处 理 器 必须 具备 硬件 辅助 虚拟 化 技术 。 微 软 之 前 的 Virtual Server 2005 R2 不 需 
要 这 个 技术 。 对 于 VMware 的 产品 来 说 ,这 也 只 是 一 个 可 选 的 特性 ,不 像 Hyper-V 那样 ,是 
一 个 硬性 的 要 求 。 处 理 器 不 支持 VT/AMD 一 V ,就 无 法 运行 HyperV。 

在 磁盘 方面 也 有 一 定 的 限制 : HyperV 虽然 增加 了 SCSI 控制 器 的 支持 ,但 是 
Windows Server 2003 的 虚拟 机 无 法 在 SCSI 磁盘 上 进行 引导 和 安装 。 也 就 是 说 初次 部 署 
Windows Server 2003 系统 时 ,在 Hyper-V 虚拟 机 中 不 能 使 用 SCSI 虚拟 机 磁盘 ,只 能 用 
IDE 虚拟 机 磁盘 安装 。 

6. 服务 器 虚拟 化 的 技术 比较 表 

服务 器 虚拟 化 的 技术 比较 见 表 7-1。 


表 7-1 服务 器 虚拟 化 的 技术 比较 
厂商 技 术 重点 技术 描述 


基于 动态 微分 区 的 IBM Power 5 服务 器 已 经 可 以 在 单 
处 理 器 下 做 10 次 分 区 ,同时 可 以 执行 Linux 及 IBM 的 
UNIX 操作 系统 。 因 此 ,虽然 AIX 的 动态 逻辑 分 区 技术 
允许 一 台 有 8 个 处 理 器 的 服务 器 同时 运行 8 个 操作 系 
统 , 并 且 能 够 在 处 理 器 之 间 转 移 工 作 负载 ,但 虚拟 引擎 
却 可 以 创建 微型 分 区 ,使 一 块 CPU 变 成 10 台 虚 拟 服 
务 器 





支持 硬 分 区 LPAR, 软 分 区 


Ee DLPAR 动态 微分 区 





By 
支持 基于 PA-RISC 平台 的 硬 分 | 针对 Tuanium 产品 ,计划 在 今年 上 半年 推出 基于 vmPAR 


HP 


区 nPAR, 软 分 区 vPAR、vPAR 
做 在 nPar 上 ,只 用 在 PA-RISC 

台 , 不 支持 Itanium 产品 。 声 
称 即将 支持 基于 Itanium 的 软 分 
区 vmPAR 


分 割 技术 的 产品 ,利用 软件 在 单个 Itanium 处 理 器 上 切 成 
最 多 10 个 分 区 (Partition) ,让 Integrity 的 单一 处 理 器 可 
同时 执行 多 操作 系统 , 如 Windows、Linux、HP-UX 
和 OpenVMS 





SUN 





支持 硬 分 区 SUN domain、 软 分 
区 N1 Grid Container 或 Zone 





Solaris 10 新 增 基于 N1 Grid Containers(N1 网 格 容 器 ) 的 
逻辑 分 区 (Partition) 功 能 ,此 功能 允许 在 单一 伺服 主机 上 
执行 多 种 应 用 程序 。 这 项 技术 将 使 用 在 SUN 公司 的 
UltraSparc 处 理 器 及 x86 处 理 器 上 
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续 表 
厂商 技 术 重点 技术 描述 
推行 虚拟 服务 器 企业 级 虚拟 解决 方案 ,可 以 实现 多 操作 
系统 环境 中 服务 器 的 整合 和 高 效 管理 。Virtual Server 是 
一 种 基于 Microsoft Windows 的 服务 器 应 用 ,使 用 户 能 够 
i 在 同一 种 物理 服务 器 上 同时 运行 各 种 类 型 的 操作 系统 ， 
. 推行 虚拟 服务 器 企业 级 虚拟 解决 其 中 包括 Windows Server 2003、Windows 2000 Server、 
Microsoft | 方案 ,可 以 实现 多 操作 系统 环境 | ，. 
中 服务 器 的 整合 和 高 效 管理 Linux、UNIX 和 OS/2。Virtual Server 是 从 Connectix 的 
Virtual PC 客户 端 虚拟 软件 产品 线 发 展 而 来 的 ,可 以 在 符 
合 业 界 标准 的 Intel 服务 器 (IA32) 上 运行 。Virtual 
Server 内 建 了 虚拟 计算 机 技术 ,使 用 软件 和 选 定 的 硬件 
设备 来 创建 一 个 模拟 的 运行 环境 
用 户 可 以 通过 VMware 的 虚拟 基础 设施 管理 软件 一 一 
vCenter 来 管理 由 ESX 服务 器 组 成 的 池 。 该 软件 让 管理 
VMware 在 操作 系统 和 实现 的 硬 | 员 能 够 对 资源 进行 切换 ,从 而 将 未 使 用 的 容量 减 到 最 小 ， 
件 之 间 插 人 一 个 虚拟 硬件 。 任 何 | 并 且 对 服务 器 进行 快速 部 署 和 维护 。 作 为 其 vCenter 的 
运行 在 基于 x86 上 的 系统 都 可 以 | 并 且 对 服务 器 进行 快速 部 姥 和 维护 ， 上 
VMware 运行 VMware, 其 中 包括 所 有 版 一 部 分 ,VMotion 可 以 将 正在 运行 的 虚拟 机 移植 到 一 个 
本 的 ee i 不 同 的 物理 服务 器 上 ,并 且 不 会 对 服务 造成 任何 干扰 , 即 
和 NetWare 、 和 使 在 没有 硬件 停机 计划 的 情况 下 ,也 可 以 添加 内 存 或 进 
行 硬件 检修 ,还 可 以 使 用 VMotion 对 负载 进行 随时 随地 
的 平衡 操作 








相 比 之 下 ,对 UNIX 平台 而 言 ,IBM、HP、SUN 各 有 自己 的 技术 标准 ,没有 统一 的 虚拟 
化 技术 ,因此 ,目前 UNIX 的 虚拟 化 还 受 具 体 产 品 平台 的 制约 。 而 PC 服务 器 的 虚拟 化 标准 
相对 开放 ,无 论 是 VMware 还 是 Microsoft HyperV, 对 Windows 虚拟 化 都 提供 支持 。 

(1) 从 技术 来 看 ,Hyper-V 的 功能 比 VMware 略为 落后 ,表现 在 以 下 几 方 面 

OO 微软 Live Migration: 是 VMware VMotion 的 部 分 ,VMware 从 2003 年 将 VMotion 
推 向 市 场 (微软 落后 了 7 年 ) 。 

@ 集群 文件 系统 : 是 VMware VMFS 的 部 分 ,VMware 从 2001 年 推出 VMFS( 微 软 落 
后 了 9 年 )。 

@ 32 个 逻辑 处 理 器 ;: VMware 从 2006 年 开始 支持 (微软 落后 了 4 年 )。 

@ 虚拟 磁盘 热 添加 : VMware 在 2006 年 从 ESX 3 上 开始 支持 (微软 落后 了 4 年 )。 

@ 虚拟 磁盘 热 卸 载 : VMware 今天 不 支持 (下 一 代 的 产品 将 提供 ) 。 

@ SLAT( 内 存 虚 拟 化 ): VMware 今天 已 经 提供 对 AMD RVI 和 Intel EPT 的 支持 ( 微 
软 落后 了 2 年 ) 。 

@ 动态 内 存 : VMware 从 2001 年 就 开始 支持 (微软 落后 了 9 年 ) 。 

(2) 从 功能 上 来 看 .VMware 与 HyperV 各 有 擅长 

VMware 与 Hyper-V 功能 对 比 见 表 7-2。 


7.2.2 网 络 虚拟 化 


网 络 虚拟 化 是 目前 业界 关于 虚拟 化 细 分 领域 界定 最 不 明确 且 存 在 争议 较 多 的 一 个 概 
念 。 但 总 体 来 说 ,分 为 纵向 分 隔 和 横向 分 隔 两 大 类 概念 。 
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表 7-2 ”VMware 与 Hyper-V 功能 对 比 表 















































比较 项 目 VMware Hyper-V 
高 级 内 存 管理 , 可 以 通过 重新 利用 空闲 内 存 和 消除 多 个 虚拟 机 上 相 
同 页 面 的 重复 内 存 来 过 量 调配 虚拟 内 存 (相对 物理 内 存 而 言 ), 从 而 | 是 | 无 内 存 过 量 使 用 技术 
最 大 限度 提高 内 存 利用 率 
热 添加 虚拟 CPU 和 内 存 , 可 以 在 正在 运行 的 虚拟 机 上 热 添加 虚拟 
CPU 和 RAM, 从 而 在 不 挂 起 /关闭 虚拟 机 的 情况 下 ,为 应 用 程序 增 | 是 | 无 法 热 深 加 虚拟 CPU/ 
加 资源 内 雁 
实时 存储 迁移 ;无须 关闭 虚拟 机 即 可 将 虚拟 机 文件 从 一 个 存储 阵列 ， 
实时 迁移 到 另 一 个 存储 阵列 。 支 持 从 一 个 存储 协议 到 其 他 协议 的 此 | 是 | 代 内 有 快 有 生计 于 开 
类 迁移 (例如 ,FC.iSCSI、NFS 和 DAS) ey 
庶 拟 机 级 别 的 容错 功 能 ,在 出 现 硬件 故 陈 时 ,可 以 为 虚拟 机 上 的 任 | ， | 与 第 三 方 共同 宜 布吉 未 
何 应 用 程序 (而 不 仅仅 是 支持 群集 的 应 用 程序 ) 提 供 无 停机 保护 确定 具体 上 市 时 间 
齐 次 源 字 ， 可 以 从 物理 群集 内 分 配 办 辑 资 源 池 。 还 可 以 在 不 影响 | | 未 冯 村 
其 他 业务 组 的 情况 下 ,将 这 些 资 源 分 配给 特定 的 业务 组 
群集 级 别 的 负载 平衡 : 可 以 通过 自动 负载 平生 和 灵活 的 内 存 使 用 ，| 名 be 
安全 地 实现 高 水 平 的 利用 率 。 每 个 群集 包含 多 达 32 个 节点 人 
群集 级 别 的 电源 管理 : 可 在 非 峰值 时 段 内 将 工作 负载 整合 到 更 少 的 
服务 器 上 并 关闭 其 他 服务 器 ,从 而 在 群集 级 别 节省 电能 。 当 常规 工 | 是 | 划 集 成 吏 能 需要 自 定义 
作 时 段 的 工作 负载 恢复 时 ,将 重新 打开 已 关闭 的 服务 器 
炙 集 级别 的 网 络 管 理 , 通过 创建 能 名 路 整个 儿 信 并 支持 虚拟 机 移动 | | 不 去 
性 的 分 布 式 交换 机 ,可 以 在 群集 级 别管 理 虚拟 交换 机 
群集 级 别 的 安全 管理 , 可 以 在 虚拟 机 级 别 (支持 虚拟 机 移动 性 ) 管 理 
和 强制 实施 安全 区 域 策略 ,而 不 必 将 特定 物理 主机 分 配 到 指定 安全 | 是 | 不 支持 
区 域 
专门 构建 的 带 小 型 代码 库 的 精简 体系 结构 : 采用 专门 设计 的 体系 结 二 
构 ,不 但 可 以 满足 虚拟 化 要 求 (性 能 ,扩展 性 ) ,而 且 还 带 有 一 个 非常 | 中 | 体系 纺 移 依 趟 了 在 父 级 
小 的 代码 库 , 可 最 大 限度 缩小 攻击 范围 并 减少 需要 维护 的 代码 量 ( 安 2 
a 的 大 型 子 集 
虚拟 机 虚拟 资源 纵向 扩展 ; 对 于 所 有 支持 的 客户 服务 器 操作 系统 ， ee 
每 个 虚拟 机 可 以 支持 高 达 8 个 虚拟 CPU 和 容量 为 56GB 的 RAM, | 是 | 拟 机 宇宙 a 
从 而 为 高 性 能 计算 应 用 程序 提供 充足 的 计算 资源 
广泛 的 客户 操作 系统 支持 :支持 广泛 的 Windows 客户 服务 器 和 客 
户 端 操作 系统 ,甚至 包括 Windows NT 4 和 DOS。 支 持 所 有 主要 的 | 是 3 人 
Linux 发 行 版 ,包括 半 虚拟 化 的 Linux 多 
集成 的 内 秋 网 卡 绑 定 功能 : 可 以 对 主机 上 任何 受 支 持 的 物理 网 卡 集 一 
进行“ 铸 定 ”, 以 在 网 卡 出 现 故 障 时 提供 元 余 。 这 种 功能 应 内 置 于 虚 | 所 | 你 吉 了 中 能 在 第 三 万 风 
拟 化 平台 中 ,而 非 需要 使 用 第 三 方 驱动 程序 ,这 些 驱动 程序 只 能 与 该 a . 
特定 第 三 方 的 物理 网 卡 配合 使 用 
带 全 面 监 控 和 警报 功能 的 精简 部 署 磁 盘 ， 可 以 精简 部 署 磁盘 ,而 无 
须 预先 分 配 所 有 存储 空间 。 全 面 监控 和 警报 功能 ,可 防止 意外 用 完 | 是 | 具有 精简 磁盘 ,但 缺少 


所 有 物理 存储 空间 








全 面 的 监控 和 警报 工具 
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续 表 
比较 项 目 VMware Hyper-V 
快照 : 可 以 对 实时 运行 中 的 虚拟 机 拍摄 快照 ,并 在 不 关闭 虚拟 机 的 是 无 法 在 虚拟 机 开机 时 提 
情况 下 将 其 恢复 到 快照 点 交 / 回 滚 快照 
在 单个 主机 上 同时 执行 实时 迁移 : 可 以 在 单个 主机 上 执行 并 发 实时 
迁移 ,以 减少 在 计划 内 维护 期 间 用 于 搬出 单个 主机 上 的 所 有 虚拟 机 | 是 | 每 全 主机 可 次 只 能 执行 
一 项 实时 迁移 
的 时 间 
提供 程序 允许 使 用 外 部 脚本 编写 工具 与 管理 工具 (如 Windows 
PowerShell、System Center Virtual Machine Manager 及 其 他 第 三 方 | 不 支持 | 支持 
工具 ) 管 理 Hyper-V 服务 器 
与 Microsoft Volume Shadow Copy 服务 相 集成 不 支持 | 支持 
Bitlocker 组 件 对 硬盘 文件 实现 加 密 保护 不 支持 | 支持 
1. 纵向 分 隔 


早期 的 “网 络 虚拟 化 ”, 是 指 虚拟 专用 网 络 (VPN)。VPN 对 网 络 连 接 的 概念 进行 了 抽 


象 ,允许 远程 用 户 访问 组 织 的 内 部 网 络 ,就 像 物理 上 连接 到 该 网 络 


一 样 。 网 络 虚拟 化 有 


助 于 保护 IT 环境 ,防止 来 自 Internet 的 威胁 ,同时 使 用 户 能 够 快速 安全 地 访问 应 用 程序 


和 数据 。 


随后 的 网 络 虚拟 化 技术 随 着 数据 中 心 业务 要 求 发 展 为 : 多 种 应 用 承载 在 一 张 物理 网 络 
上 ,通过 网 络 虚 拟 化 分 隔 ( 称 为 纵向 分 隔 ,图 7-16) 功 能 使 得 不 同 企业 机 构 相 互 隔离 ,但 可 在 
同一 网 络 上 访问 自身 应 用 ,从 而 实现 了 将 物理 网 络 进行 逮 辑 纵向 分 隔 虚拟 化 为 多 个 网 络 。 
























































路 由 器 | 
加 喘 时 | -| 外 部 办 
1 
Internet 
1 
路 由 器 加 守 喘 时 || 一 一 一 外 部 界面 
本 














@ © 


图 7-16 纵向 分 割 示意 图 
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如 果 把 一 个 企业 网 络 分 隔 成 多 个 不 同 的 子 网 络 一 一 它们 使 用 不 同 的 规则 和 控制 ,用 户 
就 可 以 充分 利用 基础 网 络 的 虚拟 化 路 由 功能 ,而 不 是 部 署 多 套 网 络 来 实现 这 种 隔离 机 制 。 

网 络 虚拟 化 概念 并 不 是 什么 新 概念 ,因为 多 年 来 ,虚拟 局 域 网 (VLAN) 技 术 作 为 基本 隔 
离 技术 已 经 广泛 应 用 。 当 前 在 交换 网 络 上 通过 VLAN 来 区 分 不 同业 务 网 段 .配合 防火 墙 等 
安全 产品 划分 安全 区 域 , 是 数据 中 心 基本 设计 内 容 之 一 。 

出 于 将 多 个 逻辑 网 络 隔离 .整合 的 需要 ,VLAN、MPLS-VPN、Multi-VRF 技术 在 路 由 
环境 下 实现 了 网 络 访 问 的 隔离 ,虚拟 化 分 隔 的 逻辑 网 络 内 部 有 独立 的 数据 通道 ,终端 用 户 和 
上 层 应 用 均 不 会 感知 其 他 逻辑 网 络 的 存在 。 但 在 每 个 逻辑 网 络 内 部 ,仍然 存在 安全 控制 需 
求 ,对 数据 中 心 而 言 ,访问 数据 流 从 外 部 进入 数据 中 心 , 则 表明 了 数据 在 不 同安 全 等 级 的 区 
域 之 间 流 转 , 因 此 ,有 必要 在 网 络 上 提供 逻辑 网 络 内 的 安全 策略 ,而 不 同 逻 辑 网 络 的 安全 策 
略 有 各 自 独立 的 要 求 ,虚拟 化 安全 技术 ,将 一 台 安全 设备 可 分 隔 成 若干 台 逻 辑 安全 设备 (成 
为 多 个 实例 ) ,从 而 很 好 地 满足 了 虚拟 化 的 深度 强化 安全 要 求 。 

2. 横向 分 隔 

从 另外 一 个 角度 来 看 ,多 个 网 络 节点 承载 上 层 应 用 ,基于 元 余 的 网 络 设计 带 来 复杂 性 ， 
而 将 多 个 网 络 节点 进行 整合 ,虚拟 化 成 一 台 人 逻辑 设备 ,提升 数据 中 心 网 络 可 用 性 、 节 点 性 能 
的 同时 将 极 大 简化 网 络 架构 。 

数据 中 心 是 企业 IT 架构 的 核心 领域 ,传统 的 数据 中 心 网 络 架构 由 于 多 层 结构 、 安 全 区 
域 . 安 全 等 级 .策略 部 署 .路 由 控制 .VLAN 划分 .二 层 环 路 、 宛 余 设计 等 诸多 因素 ,导致 网 络 
结构 比较 复杂 ,使 得 数据 中 心 基础 网 络 的 运 维 管理 难度 较 高 。 

使 用 网 络 虚 拟 化 技术 ,用 户 可 以 将 多 台 设 备 连接 ,横向 整合 "起 来 组 成 一 个 “联合 设 
备 ”, 并 将 这 些 设 备 看 作 单 一 设备 进行 管理 和 使 用 。 多 个 盒 式 设备 整合 类 似 于 一 台 机 架 式 设 
备 ,多 台 框 式 设备 的 整合 相当 于 增加 了 槽 位 ,虚拟 化 整合 后 的 设备 组 成 了 一 个 迎 辑 单元 ,在 
网 络 中 表现 为 一 个 网 元 节点 ,管理 简单 化 .配置 简单 化 .可 跨 设备 链 路 聚合 , 极 大 简化 了 网 络 
架构 ,同时 进一步 增强 了 和 宛 余 可 靠 性 。 

目前 纵向 和 横向 分 隔 的 业界 网 络 虚拟 化 倡导 者 为 Cisco 与 3Com 公司 ,两 家 业界 巨头 
更 希望 能 将 任何 基于 服务 的 传统 客户 端 / 服 务 器 安置 到 网 络 上 ,甚至 在 路 由 器 中 插入 一 张 工 
作 卡 。 该 卡 上 带 有 一 套 全 功能 的 Linux 服务 器 ,可 以 和 路 由 器 中 枢 相 连 。 在 这 个 Linux 服 
务 器 中 ,可 以 安装 诸如 Sniffer、VoIP 安全 应 用 等 .让 路 由 器 和 交换 机 执行 更 多 的 服务 。 

但 总 的 来 说 ,目前 网 络 虚拟 化 并 无 业界 标准 ,成 熟 程 度 不 如 服务 器 虚拟 化 和 存储 虚拟 
化 ,而 且 相当 一 部 分 技术 已 经 在 设备 采购 中 包含 (比如 VPN、VLAN) .无 须 单独 统一 部 署 。 


7.2.3 存储 虚拟 化 


随 着 人 们 对 存储 的 需求 越 来 越 大 。 这 样 的 需求 刺激 了 各 种 新 技术 的 出 现 , 比 如 磁盘 性 
能 越 来 越 好 、 容 量 越 来 越 大 。 但 是 在 大 量 的 大 中 型 信息 处 理 系统 中 ,单个 磁盘 无 法 满足 需 
要 ,这 样 的 情况 下 存储 虚拟 化 技术 就 发 展 起 来 了 。 所 谓 虚 拟 存储 ,就 是 把 多 个 存储 介质 模块 
(如 硬盘 、RAID) 通 过 一 定 的 手段 集中 管理 起 来 ,所 有 的 存储 模块 在 一 个 存储 池 (Storage 
Pool) 中 得 到 统一 管理 ,从 主机 和 工作 站 的 角度 看 到 的 就 不 是 多 个 硬盘 ,而 是 一 个 分 区 或 者 
卷 , 就 好 像 是 一 个 超大 容量 (如 1T 以 上 ) 的 硬盘 。 这 种 可 以 将 多 种 、 多 个 存储 设备 统一 管理 
起 来 ,为 使 用 者 提供 大 容量 、 高 数据 传输 性 能 的 存储 系统 , 称 为 虚拟 存储 ,如 图 7-17 所 示 。 
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图 7-17 存储 虚拟 化 架构 图 


虚拟 存储 设备 主要 通过 大 规模 的 RAID 子 系统 和 多 个 1/O 通道 连接 到 服务 器 上 ,智能 
控制 器 提供 LUN 访问 控制 .缓存 和 其 他 如 数据 复制 等 的 管理 功能 。 这 种 方式 的 优点 在 于 
存储 设备 管理 员 对 设备 有 完全 的 控制 权 , 而 且 通 过 与 服务 器 系统 分 开 , 可 以 将 存储 的 管理 与 
多 种 服务 器 操作 系统 隔离 ,并且 可 以 很 容易 地 调整 硬件 参数 。 

目前 虚拟 存储 的 发 展 尚 无 统一 标准 ,从 虚拟 化 存储 的 拓扑 结构 来 讲 , 主要 有 两 种 方式 ， 
即 对 称 式 ( 带 内 管理 ) 与 非 对 称 式 ( 带 外 管理 ) 。 对 称 式 虚 拟 存储 技术 是 指 虚 拟 存储 控制 设备 
与 存储 软件 系统 ,交换 设备 集成 为 一 个 整体 ,内 散在 网 络 数据 传输 路 径 中 ; 非 对 称 式 虚拟 存 
储 技术 是 指 虚拟 存储 控制 设备 独立 于 数据 传输 路 径 之 外 。 

虚拟 存储 具有 的 特点 如 下 。 

(1) 虚拟 存储 提供 了 一 个 大 容量 存储 系统 集中 管理 的 手段 ,由 网 络 中 的 一 个 环节 (如 服 
务 器 ) 进 行 统一 管理 ,避免 了 由 于 存储 设备 扩充 所 带 来 的 管理 方面 的 麻烦 。 例 如 ,使 用 一 般 
存储 系统 , 当 增 加 新 的 存储 设备 时 ,整个 系统 (包括 网 络 中 的 诸多 用 户 设 备 ) 都 需要 重新 进行 
烦琐 的 配置 工作 , 才 可 以 使 这 个 “新 成 员 ” 加 入 存储 系统 之 中 。 而 使 用 虚拟 存储 技术 ,增加 新 
的 存储 设备 时 ,只 需要 网 络 管理 员 对 存储 系统 进行 较为 简单 的 系统 配置 更 改 ,客户 端 无 须 任 
何 操作 ,感觉 上 只 是 存储 系统 的 容量 增 大 了 。 

(2) 虚拟 存储 可 以 大 大 提高 存储 系统 的 整体 访问 带宽 。 存 储 系统 是 由 多 个 存储 模块 组 
成 的 ,而 虚拟 存储 系统 可 以 很 好 地 进行 负载 平衡 ,把 每 一 次 数据 访问 所 需 的 带宽 合理 地 分 配 
到 各 个 存储 模块 上 ,这 样 系统 的 整体 访问 带宽 就 增 大 了 。 例 如 ,一 个 存储 系统 中 有 4 个 存储 
模块 ,每 一 个 存储 模块 的 访问 带宽 为 50Mbps, 则 这 个 存储 系统 的 总 访问 带宽 就 可 以 接近 各 
存储 模块 带宽 之 和 , 即 200Mbps。 

(3) 虚拟 存储 技术 为 存储 资源 管理 提供 了 更 好 的 灵活 性 ,可 以 将 不 同类 型 的 存储 设备 
集中 管理 使 用 ,保障 了 用 户 以 往 购买 的 存储 设备 的 投资 。 

(4) 虚拟 存储 技术 可 以 通过 管理 软件 .为 网 络 系统 提供 一 些 其 他 有 用 的 功能 ,如 无 须 服 
务 器 的 远程 镜像 数据 快照 (Snapshot) 等 。 
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对 于 常规 企业 ,存储 虚拟 化 一 般 在 性 能 相仿 .存储 零散 分 布 的 情况 下 适用 。 

业界 虚拟 存储 产品 主要 有 EMC 公司 的 Invista、 HDS 公司 的 UPS 和 IBM 公司 
的 SVC。 

(1) EMC 公司 :EMC 公司 2005 年 8 月 推出 一 款 新 型 的 存储 路 由 器 虚拟 化 产品 。 这 款 
产品 代号 为 Invista( 见 图 7-18) 的 带 外 (Out of Band) 专 用 设备 是 由 两 个 组 件 构成 的 : 一 个 
双 节 点 的 服务 器 集群 和 一 个 与 之 相连 接 的 光纤 交换 机 。 服 务 器 上 运行 的 软件 均 由 EMC 自 
行 开发 ,主要 负责 审核 每 一 个 自主 机 送出 的 经 由 光纤 交换 机 传送 到 磁盘 阵列 的 信息 包 。 为 
每 一 个 捕获 到 的 信息 包 分 配 一 个 独一无二 的 标识 符 ,对 其 进行 分 类 ,便于 跨 异 构 存 储 平台 进 
行 管理 。 


服务 器 
呈 共 平平 罗 
SAN > 


Invista 


















智能 交换 机 








物理 存储 器 


7-18 Invista 架构 图 





(2) HDS 公司 : 2004 年 , HDS 公司 推出 通用 存储 平台 TagmaStore Universal 
Storage Platform, 即 面向 高 端的 虚拟 化 存储 解决 方案 。HDS TagmaStore 通用 存储 平台 采 
用 了 虚拟 化 技术 ,通过 内 置 的 虚拟 层 , 可 以 管理 高 达 32PB 的 内 部 与 外 部 存储 容量 ,并 支持 
在 内 部 与 外 部 存储 中 的 逻辑 分 区 ,以 及 复杂 的 任意 存储 地 点 间 的 远程 复制 功能 。 

2005 年 ,HDS 坚持 走 基 于 磁盘 控制 器 的 虚拟 化 道路 ,2005 年 7 月 推出 的 Hitachi 
TagmaStore 网 络 存储 控制 器 NSC55 就 是 典型 的 代表 。NSC55 采用 了 Hitachi Universal 
Star Network 交换 架构 ,提供 由 TagmaStore 通用 存储 平台 带 来 的 ,经 过 验证 的 企业 级 功 
能 一 一 外 部 存储 虚拟 化 、 逻 辑 资 源 分 区 和 通用 复制 。NSC55 集 高 端 存储 平台 才 具 有 的 高 级 
功能 以 及 已 经 过 用 户 验证 的 虚拟 化 软件 两 大 功能 于 一 身 , 打 破 了 目前 模块 化 产品 的 局 限 性 ， 
超出 所 有 现 有 模块 化 “磁盘 式 存储 ”以 及 基于 交换 机 或 其 他 设备 的 虚拟 化 功能 ,是 存储 行业 
的 一 大 创举 。 

(3) IBM 公司 : IBM 公司 2003 年 推出 的 基于 网 络 的 存储 虚拟 化 产品 主要 包括 SAN 
Volume Controller(SVC) 和 SAN File System。SVC 是 整个 SAN( 存 储 区 域 网 ) 网 络 的 控 
制 器 ,可 以 将 SAN 中 的 各 种 存储 设备 整合 成 一 个 存储 池 ,并 按 需 分 配 存储 空间 、 性 能 和 功 
能 。SVC 对 服务 器 和 存储 设备 都 是 透明 的 。SVC 为 各 种 不 同 的 存储 设备 提供 了 一 个 统一 
的 数据 复制 平台 。SVC 是 一 个 软 硬 件 集成 的 产品 。SVC 刚 推出 时 ,可 实现 存储 虚拟 化 的 软 
件 运 行 在 一 个 类 似 服务 器 的 硬件 设备 上 。 如 今 , 此 软件 也 可 以 安装 在 SAN 中 的 交换 机 上 ， 
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如 思科 的 MDS 网 络 交换 机 。SVC 是 为 一 个 完全 开放 的 存储 环境 设计 的 ,可 以 兼容 各 种 不 
同 的 存储 设备 。 


7.2.4 应 用 虚拟 化 


应 用 虚拟 化 通常 包括 两 层 含义 ,一 是 应 用 软件 的 虚拟 化 ,二 是 桌面 的 虚拟 化 。 所 谓 的 应 
用 软件 虚拟 化 ,就 是 将 应 用 软件 从 操作 系统 中 分 离 出 来 ,通过 自己 压缩 后 的 可 执行 文件 夹 来 
运行 ,而 无 须 任何 设备 驱动 程序 或 者 与 用 户 的 文件 系统 相连 。 借 助 于 这 种 技术 ,用 户 可 以 减 
小 应 用 软件 的 安全 隐患 和 维护 成 本 ,并 进行 合理 的 数据 备份 与 恢复 。 除 了 可 以 将 应 用 软件 
与 操作 系统 分 离 外 ,一 部 分 解决 方案 还 可 以 将 应 用 软件 流水 化 包装 起 来 ,应 用 软件 无 须 安 
装 , 只 要 一 部 分 程序 能 够 在 计算 机 上 运行 即 可 。 用 户 只 需 使 用 他 们 自己 需要 的 那 部 分 程序 
或 者 功能 即 可 。 

应 用 软件 虚拟 化 技术 至 今 仍然 不 是 很 成 熟 , 相 对 而 言 ,桌面 虚拟 化 则 要 成 熟 得 多 。 桌 面 
虚拟 化 就 是 专注 于 桌面 应 用 及 其 运行 环境 的 模拟 与 分 发 ,是 对 现 有 桌面 管理 自动 化 体系 的 
完善 和 补充 。 

当今 的 桌面 环境 将 桌面 组 件 ( 硬 件 、 操 作 系统 .应 用 程序 .用 户 配置 文件 和 数据 ) 联 系 
在 一 起 ,给 支持 和 维护 工作 带 来 了 很 大 困难 。 因 此 ,一 个 层 发 生 问题 往往 会 导致 连锁 反 
应 ,最 终 破 坏 整个 桌面 ,使 用 IT 部 门 恢 复 本 地 存储 的 用 户 数据 和 设置 非常 困难 并 且 成 本 
昂贵 。 

个 人 计算 设备 和 操作 系统 的 繁多 使 用 户 / 服 务 器 端 应 用 的 测试 ,调试 和 客户 定制 开发 成 
本 高 昂 且 耗费 时 间 。 

采用 桌面 虚拟 化 技术 (图 7-19) 之 后 ,将 不 需要 在 每 个 用 户 的 桌面 上 部 署 和 管理 多 个 软 
件 客 户 端 系统 ,所 有 应 用 客户 端 系统 都 将 一 次 性 地 部 署 在 数据 中 心 的 一 台 专 用 服务 器 上 ,这 
台 服 务 器 就 放 在 应 用 服务 器 的 前 面 。 客 户 也 将 不 需要 通过 网 络 向 每 个 用 户 发 送 实 际 的 数 
据 ,只 有 虚拟 的 客户 端 界面 (屏幕 图 像 更 新 ,按键 ,鼠标 移动 等 ) 被 实际 传送 并 显示 在 用 户 的 
计算 机 上 。 这 个 过 程 对 最 终 用 户 是 一 目 了 然 的 ,最 终 用 户 的 感觉 好 像 是 实际 的 客户 端 软件 
正在 他 的 桌面 上 运行 一 样 。 

















集中 式 虚拟 桌面 






< 
微软 活动 目标 


客户 端 地 
7-19 桌面 虚拟 化 架构 图 
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传统 的 用 户 / 服 务 器 端 应 用 要 求 在 每 个 用 户 的 计算 机 上 安装 客户 端 软件 ,从 而 导致 更 高 
的 成 本 ,因为 需要 在 分 布 式 网 络 上 管理 这 些 软件 的 部 署 . 补 丁 和 升级 。 这 个 问题 随 着 用 户 登 
录 到 每 个 新 应 用 系统 的 需求 量 呈 增长 趋势 ,因为 IT 部 门 需要 在 每 个 用 户 的 桌面 上 部 署 另 
一 个 独特 的 客户 端 设备 。 即 便 在 最 讲究 战术 的 接 入 服务 场景 中 ,应 用 虚拟 化 可 以 带 来 的 成 
本 效益 也 是 相当 诱 人 的 。 通 过 将 IT 系统 的 管理 集中 起 来 ,企业 能 够 同时 实现 各 种 不 同 的 
效益 ,从 带宽 成 本 节约 到 提高 IT 效率 和 员工 生产 力 以 及 延长 陈旧 的 或 当前 系统 的 寿命 等 ， 
最 主要 有 以 下 三 点 。 

1. 数据 安全 

由 于 应 用 虚拟 化 软件 只 是 将 运行 的 图 像 更 新 通过 网 络 传 输 和 显示 在 远程 设备 的 显示 设 
备 上 ,数据 与 文件 不 会 通过 网 络 进行 传输 。 而 且 由 于 只 需要 开 一 个 端口 ,网 络 安全 性 也 大 大 
提高 。 

即使 不 怀 好 意 者 截取 数据 包 , 由 于 图 像 的 差异 化 ,也 很 难 恢复 成 原来 的 数据 ,利用 加 密 
手段 将 使 整个 系统 的 安全 性 得 到 大 大 提高 。 

2. 高 效 管理 

应 用 虚拟 化 软件 ,将 操作 系统 的 安装 、 运 行 环境 与 用 户 实际 的 操作 环境 进行 分 离 , 从 而 
实现 了 操作 系统 的 管理 和 使 用 的 分 离 。 实 现 了 便捷 、 完 整 的 桌面 生命 周期 管理 。 

(1) 管理 员 只 需要 分 配 新 的 账号 ,新 用 户 就 可 以 立即 通过 任何 设备 访问 属于 他 的 桌面 
系统 。 

(2) 管理 员 通 过 配置 ,可 以 使 用 户 通过 相同 设备 同时 访问 多 个 桌面 系统 。 

(3) 管理 员 只 需要 对 后 台 镜 像 统 一 打 一 次 补丁 ,所 有 用 户 下 次 使 用 的 桌面 就 是 最 新 的 
(4) 管理 员 在 后 台 镜 像 安装 一 次 程序 ,下 次 用 户 登录 桌面 ,就 可 以 使 用 此 应 用 。 
3. 降低 TCO 
(1) 减少 投资 成 本 : 可 以 采用 瘦 用 户 端 ,投资 成 本 只 有 传统 PC 的 50%, 同 时 延长 所 有 
设备 的 使 用 寿命 ,能 够 将 年 折旧 减少 50%。 

(2) 减少 运 维 成 本 : 通常 一 个 专业 机 房管 理 员 能 够 管理 90 台 桌 面 , 而 使 用 应 用 虚拟 化 
软件 ,一 个 管理 员 可 以 管理 几乎 所 有 的 桌面 , 运 维 成 本 大 大 下 降 。 

(3) 降低 运行 成 本 : 瘦 客 户 端 的 功率 接近 传统 PC 的 1/6, 使 用 虚拟 化 软件 可 以 减少 约 
80% 的 电量 消耗 。 

目前 ,主流 的 应 用 虚拟 化 厂商 有 Citrix 公司 的 XenDesktop、VMware 公司 的 View( 以 
前 的 VMware VDD .微软 公司 的 App-V( 以 前 的 Soft Grid) 。 

目前 看 来 ,3 大 厂商 在 这 个 层面 采用 了 不 同 的 拆 分 技术 。VMware 公司 采用 物理 的 拆 
分 方法 , 即 基 于 服务 器 的 差异 磁盘 的 技术 ,实现 差异 的 镜像 ,比如 200 个 用 户 可 以 使 用 一 个 
共同 的 “ 母 盘 ?镜像 ,每 个 用 户 自 己 的 差异 信息 :包括 应 用 (VMware 自己 的 应 用 虚拟 化 Thin 
App 实际 是 一 个 打包 方法 ,需要 存储 在 本 地 ,如 图 7-20 所 示 ) 与 配置 信息 ,使 用 时 将 两 者 结 
合 起 来 提供 服务 ,这 种 完全 基于 二 进 制 的 拆 分 方法 是 典型 的 服务 器 虚拟 化 厂商 的 技术 ,大 大 
降低 了 存储 量 。 但 是 这 种 技术 仍然 要 求 管理 员 一 定 程度 上 对 每 个 用 户 的 镜像 进行 管理 , 因 
为 仍然 存在 这 种 一 一 对 应 。 
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客户 端 
图 7-20 VMware 应 用 虚拟 化 技术 
而 Citrix 作为 应 用 虚拟 化 的 传统 厂商 , 则 采用 了 自己 很 成 熟 的 “逻辑 ” 拆 分 法 ,按照 迎 辑 
分 类 将 其 拆 分 , 即 按 操作 系统 、 应 用 与 配置 文件 进行 拆 分 ,使 用 时 按 需 进行 组 装 ,这 样 能 够 保 
证 不 同 逻 辑 单元 的 相互 独立 性 ,防止 一 方 发 生变 化 对 其 他 方面 造成 的 影响 ,例如 应 用 与 系统 
的 升级 和 维护 如 图 7-21 所 示 。 
桌面 支持 ” 话 务 通 桌面 交付 控制 器 图 
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拟 桌 面 














任何 虚拟 机 管理 程 
序 或 刀片 式 PC 


图 7-21 Citrix 应 用 虚拟 化 技术 


微软 则 介 于 两 者 之 间 ,根据 官方 的 介绍 ,用户 可 以 把 自己 制作 好 的 虚拟 机 上 传 到 服务 器 
上 ,可 以 看 到 是 一 个 用 户 与 镜像 一 一 对 应 的 管理 方法 。 当 然 微软 自己 具有 终端 服务 和 
RDP, 可 以 采用 与 Citrix 一 样 的 方法 ;而 它 又 有 Soft Grid( 现 在 叫 App-V ,类似 于 Thin App 
的 打包 技术 ) 与 虚拟 服务 器 的 差异 磁盘 技术 ,也 可 以 采用 VMware 的 技术 路 线 。 


7.2.5 虚拟 化 技术 的 比较 


综 上 所 述 ,对 各 种 虚拟 化 技术 比较 如 表 7-3 所 示 。 
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表 7-3 各 种 虚拟 化 技术 的 比较 
































比较 项 目 服务 器 虚拟 化 存储 虚拟 化 网 络 虚拟 化 应 用 虚拟 化 
产生 年 代 20 世纪 60 年 代 2003 年 20 世纪 末期 21 世纪 
成 熟 程度 高 中 低 低 
rw | ai | 共 | am | 
和 IBM 时 Microsoft 
增强 管理 性 高 中 中 高 
可 靠 性 高 中 中 中 
可 用 性 高 高 中 高 
兼容 性 高 中 低 中 
可 扩展 性 高 高 中 中 
部 署 难度 中 高 中 高 














在 这 四 种 虚拟 化 技术 中 ,服务 器 虚拟 化 技术 .应 用 虚拟 化 中 的 桌面 虚拟 化 技术 相对 成 
熟 ,也 是 使 用 较 多 的 技术 而 其 他 虚拟 化 技术 则 还 需要 在 实践 中 进一步 检验 和 完善 。 


7.3 虚拟 化 架构 对 比分 析 


云 计 算 平台 需要 有 资源 池 为 其 提供 能 力 输出 ,这 种 能 力 包括 计算 能 力 ,存储 能 力 和 网 络 
能 力 , 为 了 将 这 些 能 力 调度 到 其 所 需要 的 地 方 , 云 计算 平台 还 需要 对 能 力 进 行 调度 管理 ,这 
些 能 力 均 是 由 虚拟 化 资源 池 提 供 的 。 

云 计算 离 不 开 底层 的 虚拟 化 技术 支持 。 维 基 百 科 列 举 的 虚拟 化 技术 超过 60 种 ,基于 
X86(CISC) 体 系 的 超过 50 种 ,也 有 基于 RISC 体系 的 ,其 中 有 4 种 虚拟 化 技术 是 当前 最 为 
成 熟 而 且 应 用 最 为 广泛 的 ,分 别 是 VMware 的 ESX、 微 软 的 Hyper-V、 开 源 的 XEN 和 
KVM。 云 计算 平台 选用 何 种 虚拟 化 技术 将 是 云 计 算 建设 所 要 面临 的 问题 。 

形成 资源 池 计 算 能 力 的 物理 设备 可 能 有 两 种 ,一 种 是 基于 RISC 的 大 /小 型 计算 机 ; 另 
一 种 是 基于 CISC 的 x86 服务 器 。 大 /小 型 计算 机 通常 意味 着 高 性 能 、 高 可 靠 性 和 高 价格 ， 
而 x86 服务 器 与 之 相 比 有 些 差距 ,但 随 着 Intel 和 AMD 等 处 理 器 厂商 技术 的 不 断 发 展 , 原 
本 只 在 小 型 计算 机 上 才 有 的 技术 已 经 出 现在 了 x86 处 理 器 上 ,如 64 位 技术 .虚拟 化 技术 、 多 
核心 技术 等 ,使 得 x86 服务 器 在 性 能 上 突飞猛进 。 通 过 TPC 组 织 在 2011 年 3 月 所 公布 的 
单机 计算 机 性 能 排名 中 可 以 看 出 ,4 路 32 核 的 x86 服务 器 性 能 已 经 位 列 前 10 名 ,更 重要 的 
是 x86 服务 器 的 性 价 比 相 对 小 型 计算 机 有 约 5 倍 的 优势 。 因 此 ,选择 x86 服务 器 作为 云 计 
算 资源 池 , 更 能 凸显 出 云 计算 的 低 成 本 优势 。 

由 于 单机 计算 机 的 处 理 能 力 越 来 越 大 ,以 单机 资源 为 调度 单位 的 颗粒 度 就 太 大 了 ,因此 
需要 有 一 种 技术 让 资源 的 调度 颗粒 更 细小 ,使 资源 得 到 更 有 效 和 充分 的 利用 ,这 就 引入 了 虚 

223 


数据 安全 与 灾 备 管理 





从 虚拟 化 的 实现 方式 来 看 ,虚拟 化 架构 主要 有 两 种 形式 : 宿主 架构 和 裸 金属 架构 。 在 
宿主 架构 中 的 虚拟 机 作为 主机 操作 系统 的 一 个 进程 来 调度 和 管理 , 裸 金属 架构 下 则 不 存在 
主机 操作 系统 , 它 是 以 管理 程序 (Hypervisor) 直接 运行 在 物理 硬件 之 上 ,即使 是 有 类 似 主机 
操作 系统 的 父 分 区 或 Domain 0, 也 是 作为 裸 金属 架构 下 的 虚拟 机 存在 的 。 宿 主 架构 通常 用 
于 PC 上 的 虚拟 化 ,如 Windows Virtual PC、VMware Workstation 、 Virtual Box、Qemu 等 ， 
而 裸 金属 架构 通常 用 于 服务 器 的 虚拟 化 ,如 文中 提 及 的 4 种 虚拟 化 技术 。 

1. ESX 的 虚拟 化 架构 

ESX 是 VMware 的 企业 级 虚拟 化 产品 ,2001 年 开始 发 布 ESX 1.0, 到 2011 年 2 月 发 布 
ESX 4.1 Update 1。 

ESX 服务 器 启动 时 ,首先 启动 Linux Kernel, 通 过 这 个 操作 系统 加 载 虚拟 化 组 件 , 最 重 
要 的 是 ESX 的 Hypervisor 组 件 , 称 为 VYMkernel,VMkernel 会 从 LinuxKernel 完全 接管 对 
硬件 的 控制 权 ,而 该 Linux Kernel 作为 VMkernel 的 首 个 虚拟 机 ,用 于 承载 ESX 的 服务 器 
控制 台 (Service Console) ,实现 本 地 的 一 些 管理 功能 。 

VMkernel 负责 为 所 承载 的 虚拟 机 调度 所 有 的 硬件 资源 ,但 不 同类 型 的 硬件 会 有 区 别 。 

虚拟 机 对 于 CPU 和 内 存 资源 通过 VMkernel 直接 访问 ,最 大 限度 地 减少 了 开销 ,CPU 
的 直接 访问 得 益 于 CPU 硬件 辅助 虚拟 化 (Intel VT-x 和 AMD AMD-V, 第 一 代 虚 拟 化 技 
术 ) ,内 存 的 直接 访问 得 益 于 MMU (内 存 管理 单元 ,属于 CPU 中 的 一 项 特征 ) 硬 件 辅助 虚拟 
化 (Intel 公司 的 EPT 和 AMD 公司 的 RVI/NPT. 第 二 代 虚 拟 化 技术 )。 

虚拟 机 对 于 IO 设备 的 访问 则 有 多 种 方式 ,以 网 卡 为 例 , 有 两 种 方式 可 供 选 择 : 一 是 利 
用 IO MMU 硬件 辅助 虚拟 化 (Intel VT-d 和 AMD-Vi) 的 VMDirectPath 1/O, 使 得 虚拟 机 
可 以 直接 访问 硬件 设备 ,从 而 减少 对 CPU 的 开销 ;二 是 利用 半 虚 拟 化 的 设备 VMXNETx， 
网 卡 的 物理 驱动 在 VMkernel 中 ,在 虚拟 机 中 装载 网 卡 的 虚拟 驱动 ,通过 这 两 者 的 配对 来 访 
问 网 卡 , 与 仿真 式 网 卡 (IntelE1000) 相 比 有 着 较 高 的 效率 。 半 虚拟 化 设备 的 安装 是 由 虚拟 
机 中 的 VMware tool 来 实现 的 ,可 以 在 Windows 虚拟 机 的 右 下 角 找 到 它 。 网 卡 的 这 两 种 
方式 ,前 者 有 着 显著 的 先进 性 ,但 后 者 用 得 更 为 普遍 ,因为 VMDirectPath 1/O 与 VMware 
虚拟 化 的 一 些 核心 功能 不 兼容 ,如 热 迁 移 、 快 照 \ 容 错 、 内 存 过 量 使 用 等 。 

ESX 的 物理 驱动 是 内 置 在 Hypervisor 中 ,所 有 设备 驱动 均 是 由 VMware 预 植 入 的 。 
因此 ,ESX 对 硬件 有 严格 的 兼容 性 列表 ,不 在 列表 中 的 硬件 ,ESX 将 拒绝 在 其 上 面 安 装 。 

2. Hyper-V 的 虚拟 化 架构 

Hyper-V 是 微软 新 一 代 的 服务 器 虚拟 化 技术 , 首 个 版 本 于 2008 年 7 月 发 布 ,目前 最 新 
版 本 是 2011 年 4 月 发 布 的 R2 SP1 版 。HyperV 有 两 种 发 布 版 本 : 一 是 独立 版 ,如 HyperV 
Server 2008 ,以 命令 行 界面 实现 操作 控制 ,是 一 个 免费 的 版 本 ;二 是 内 岩 版 ,如 Windows 
Server 2008,Hyper-V 作为 一 个 可 选 开启 的 角色 。 

对 于 一 台 没 有 开启 HyperV 角色 的 Windows Server 2008 来 说 ,这 个 操作 系统 将 直接 
操作 硬件 设备 ,一 旦 在 其 中 开启 了 HyperV 角色 ,系统 会 要 求 重 新 启动 服务 器 。 虽 然 重启 
后 的 系统 在 表面 看 来 没什么 区 别 , 但 从 体系 架构 上 看 则 与 之 前 的 完全 不 同 了 。 在 这 次 重启 
动 过 程 中 ,Hyper-V 的 Hypervisor 接管 了 硬件 设备 的 控制 权 , 先 前 的 Windows Server 2008 
则 成 为 Hyper-V 的 首 个 虚拟 机 , 称 之 为 父 分 区 ,负责 其 他 虚拟 机 ( 称 为 子 分 区 ) 以 及 1/O 设 
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备 的 管理 。Hyper-V 要 求 CPU 必须 具备 硬件 辅助 虚拟 化 .但 对 MMU 硬件 辅助 虚拟 化 则 
是 一 个 增强 选项 。 

其 实 Hypervisor 仅 实现 了 CPU 的 调度 和 内 存 的 分 配 ,而 父 分 区 控制 着 IO 设备 , 它 通 
过 物理 驱动 直接 访问 网 卡 、 存 储 设备 等 。 子 分 区 要 访问 1/O 设备 需要 通过 子 分 区 操作 系统 
内 的 VSC( 虚 拟 化 服务 客户 端 ) ,对 VSC 的 请 求 由 VMBus( 虚 拟 机 总 线 ) 传 递 到 父 分 区 操作 
系统 内 的 VSP( 虚 拟 化 服务 提供 者 ) ,再 由 VSP 重 定向 到 父 分 区 内 的 物理 驱动 。 每 种 W/O 
设备 均 有 各 自 的 VSC 和 VSP 配对 ,如 存储 设备 .网 络 、 视 频 和 输入 设备 等 ,整个 1/O 设备 访 
问 过 程 对 于 子 分 区 的 操作 系统 是 透明 的 。 其 实在 子 分 区 操作 系统 内 ,VSC 和 VMBUS 就 
是 作为 /O 设备 的 虚拟 驱动 , 它 是 子 分 区 操作 系统 首次 启动 时 由 Hyper-V 提供 的 集成 服务 
安装 包 , 这 也 算是 一 种 半 虚 拟 化 的 设备 ,使 得 虚拟 机 与 物理 1/O 设备 无 关 。 如 果子 分 区 的 
操作 系统 没有 安装 Hyper-V 集成 服务 包 或 者 不 支持 Hyper-V 集成 服务 包 ( 对 于 这 种 操作 
系统 ,微软 称 为 Unenlightened OS, 如 未 经 认证 支持 的 Linux 版 本 和 旧 的 Windows 版 本 )， 
则 这 个 子 分 区 只 能 运行 在 仿真 状态 。 其 实 微 软 所 宣称 的 启蒙 式 (Enlightenment) 操 作 系 统 ， 
就 是 支持 半 虚 拟 化 驱动 的 操作 系统 。 

Hyper-V 的 Hypervisor 是 一 个 非常 精简 的 软件 层 , 不 包含 任何 物理 驱动 ,物理 服务 器 
的 设备 驱动 均 是 驻 留 在 父 分 区 的 Windows Server 2008 中 ,驱动 程序 的 安装 和 加 载 方式 与 
传统 Windows 系统 没有 任何 区 别 。 因 此 ,只 要 是 Windows 支持 的 硬件 ,就 都 能 被 Hyper-V 

3. XEN 的 虚拟 化 架构 

XEN 最 初 是 剑桥 大 学 Xensource 的 一 个 开源 研究 项 目 ,2003 年 9 月 发 布 了 首 个 版 本 
XEN 1.0,2007 年 Xensource 被 Citrix 公司 收购 ,开源 XEN 转 由 www. xen. org 继续 推进 ， 
该 组 织 成 员 包括 个 人 和 公司 (如 Citrix、Oracle 等 )。 目 前 该 组 织 在 2011 年 3 月 发 布 了 最 新 
版 本 XEN 4. 1。 

相对 于 ESX 和 Hyper-V 来 说 ,XEN 支持 更 广泛 的 CPU 架构 ,前 两 者 只 支持 CISC 的 
x86/x86_64 CPU 架构 ,XEN 除 此 之 外 还 支持 RISC CPU 架构 ,如 IA64、ARM 等 。 

XEN 的 Hypervisor 是 服务 器 经 过 BIOS 启动 之 后 载 入 的 首 个 程序 ,然后 启动 一 个 具有 
特定 权限 的 虚拟 机 , 称 为 Domain 0( 简 称 为 Dom 0)。Dom 0 的 操作 系统 可 以 是 Linux 或 
UNIX,Domain 0 实现 对 Hypervisor 的 控制 和 管理 功能 。 在 所 承载 的 虚拟 机 中 ,Dom 0 是 
唯一 可 以 直接 访问 物理 硬件 (如 存储 和 网 卡 ) 的 虚拟 机 , 它 通 过 本 身 加 载 的 物理 驱动 ,为 其 他 
虚拟 机 (Domain U ,简称 DomU) 提 供 访问 存储 设备 和 网 卡 的 桥梁 。 

XEN 支持 两 种 类 型 的 虚拟 机 ,一 类 是 半 虚 拟 化 (Para-Virtualization,PV) , 另 一 类 是 全 
虚拟 化 (XEN 称 其 为 HVM.,Hardware Virtual Machine) 。 半 虚拟 化 需要 特定 内 核 的 操作 
系统 ,如 基于 Linux paravirt_ops (Linux 内 核 的 一 套 编译 选项 ) 框 架 的 Linux 内 核 ,而 
Windows 操作 系统 由 于 其 封闭 性 则 不 能 被 XEN 的 半 虚 拟 化 所 支持 ,XEN 的 半 虚 拟 化 有 个 
特别 之 处 就 是 不 要 求 CPU 具备 硬件 辅助 虚拟 化 ,这 非常 适用 于 2007 年 之 前 的 旧 服 务 器 虚 
拟 化 改造 。 全 虚拟 化 支持 原生 的 操作 系统 ,特别 是 针对 Windows 这 类 操作 系统 ,XEN 的 全 
虚拟 化 要 求 CPU 具备 硬件 辅助 虚拟 化 , 它 修改 的 Qemu 仿真 所 有 硬件 ,包括 BIOS、IDE 控 
制 器 、VGA 显示 卡 、.USB 控制 器 和 网 卡 等 。 为 了 提升 1/O 性 能 ,全 虚拟 化 特别 针对 磁盘 和 
网 卡 采用 半 虚 拟 化 设备 来 代替 仿真 设备 ,这 些 设备 驱动 称 之 为 PV on HVM。 为 了 使 PV 
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on HVM 有 最 佳 性 能 ,CPU 应 具备 MMU 硬件 辅助 虚拟 化 。 

XEN 的 Hypervisor 层 非常 薄 . 少 于 15 万 行 的 代码 量 , 不 包含 任何 物理 设备 驱动 程序 ， 
这 一 点 与 Hyper-V 是 非常 类 似 的 ,物理 设备 的 驱动 程序 均 是 驻 留 在 Dom 0 中 ,可 以 重用 现 
有 的 Linux 设备 驱动 程序 。 因 此 .XEN 对 硬件 兼容 性 也 是 非常 广泛 的 ,Linux 支持 的 , 它 就 

4. KVM 的 虚拟 化 架构 

KVM 的 全 称 是 Kernel-based Virtual Machine, 意 思 是 基于 内 核 虚 拟 机 。 其 最 初 是 由 
Qumranet 公司 开发 的 一 个 开源 项 目 ,2007 年 1 月 首次 被 整合 到 Linux 2. 6. 20 核心 中 ; 
2008 年 ,Qumranet 被 RedHat 所 收购 ,但 KVM 本身 仍 是 一 个 开源 项 目 , 有 RedHat、IBM 等 
厂商 支持 。KVM 作为 Linux 内 核 中 的 一 个 模块 ,与 Linux 内 核 一 起 发 布 ,至 2011 年 1 月 
的 最 新 版 本 是 KVM-KMOD 2. 6. 37。 

与 XEN 类 似 ,KVM 支持 广泛 的 CPU 架构 ,除了 x86/x86_64 CPU 架构 之 外 ,还 将 会 
支持 大 型 计算 机 (S/390) ,小 型 计算 机 (PowerPC、IA64) 及 ARM 等 。 

KVM 充分 利用 了 CPU 的 硬件 辅助 虚拟 化 能 力 , 并 重用 了 Linux 内 核 的 诸多 功能 ,使 
得 KVM 本 身 非常 瘦小 ,KVM 的 创始 者 AviKivity 声称 KVM 模块 仅 有 约 10000 行 代码 ， 
但 不 能 认为 KVM 的 Hypervisor 就 是 这 个 代码 量 , 因 为 从 严格 意义 来 说 ,KVM 本 身 并 不 是 
Hypervisor, 它 仅 是 Linux 内 核 中 的 一 个 可 装载 模块 ,其 功能 是 将 Linux 内 核 转换 成 一 个 裸 
金属 的 Hypervisor。 这 相对 于 其 他 裸 金属 架构 来 说 , 它 是 非常 特别 的 ,有 些 类 似 于 宿主 架 
构 ,业界 甚 至 有 人 称 其 是 半裸 金属 架构 。 

通过 KVM 模块 的 加 载 将 Linux 内 核 转变 成 Hypervisor, KVM 在 Linux 内 核 的 用 户 
(User) 模 式 和 内 核 (Kernel) 模 式 基 础 上 增加 了 客户 (Guest) 模 式 。Linux 本 身 运 行 于 内 核 
模式 ,主机 进程 运行 于 用 户 模式 ,虚拟 机 则 运行 于 客户 模式 ,使 得 转变 后 的 Linux 内 核 可 以 
将 主机 进程 和 虚拟 机 进行 统一 的 管理 和 调度 ,这 也 是 KVM 名 称 的 由 来 。 

KVM 利用 修改 的 QEMU 提供 BIOS、 显 卡 、 网 络 、 磁 盘 控 制 器 等 的 仿真 ,但 对 于 1/O 设 
备 (主要 指 网 卡 和 磁盘 控制 器 ) 来 说 , 则 必然 带 来 性 能 低下 的 问题 。 因 此 ,KVM 也 引入 了 半 
虚拟 化 的 设备 驱动 程序 ,通过 虚拟 机 操作 系统 中 的 虚拟 驱动 与 主机 Linux 内 核 中 的 物理 驱 
动 程序 相配 合 , 提 供 近 似 原生 设备 的 性 能 。 由 此 可 以 看 出 ,KVM 支持 的 物理 设备 也 即 是 
Linux 所 支持 的 物理 设备 。 

本 书 所 介绍 的 4 种 虚拟 化 技术 都 用 到 了 半 虚 拟 化 驱动 程序 , 若 要 在 不 同 虚拟 化 架构 之 
间 迁 移 虚 拟 机 ,这 些 半 虚拟 化 驱动 程序 必然 会 带 来 兼容 性 问题 。 因 此 ,RedHat 和 IBM 联合 
Linux 社区 推出 VirtIO 半 虚 拟 化 驱动 程序 开发 标准 ,基于 VirtO 的 半 虚 拟 化 驱动 程序 独立 
于 Hypervisor。 跨 平台 迁移 时 半 虚 拟 化 驱动 程序 仍 可 重用 ,使 得 不 同 虚 拟 化 架构 之 间 更 容 
易 实 现 互 操作 。 

目前 ,传统 概念 下 的 半 虚 拟 化 和 全 虚拟 化 的 界限 越 来 越 模 糊 了 ,而 且 半 虚拟 化 和 全 虚拟 
化 得 到 了 有 机 的 整合 ,如 半 虚 拟 化 的 设备 驱动 程序 和 全 虚拟 化 的 虚拟 机 在 上 述 4 种 虚拟 化 
架构 中 得 到 了 统一 ,很 多 虚拟 化 厂商 也 不 再 明确 自己 的 虚拟 化 产品 归 类 (如 VMware 和 
微软 ) 。 

随 着 CPU 硬件 辅助 虚拟 化 技术 发 展 到 了 二 代 , 新 版 的 操作 系统 对 虚拟 化 技术 的 原生 
支持 (如 Windows 7 的 Natively Enlightened, Linux 的 paravirt _ops 内 核 选 项 ), 使 
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Hypervisor 对 虚拟 机 的 CPU 调度 和 内 存 管 理 的 干预 越 来 越 少 。 软 件 做 得 越 少 而 硬件 做 得 
越 多 ,如 虚拟 机 之 间 内 存 管理 所 需 用 到 的 地 址 翻译 由 软件 的 影 式 分 页 (Shadow Paging) 转 
变 为 由 CPU 硬件 加 速 的 嵌 套 分 页 (Nested Paging) ,各 种 虚拟 化 技术 既 有 全 虚拟 化 技术 对 
操作 系统 的 兼容 性 ,又 有 半 虚 拟 化 技术 所 带 来 的 性 能 优势 。 

从 架构 上 来 看 ,各 种 虚拟 化 技术 没有 明显 的 性 能 差距 ,稳定 性 也 在 逐渐 逼近 中 ,各 自 有 
着 自身 的 优势 场景 和 市 场 群体 。 因 此 ,在 进行 虚拟 化 技术 选 型 时 ,不 应 局 限于 某 一 种 虚拟 化 
技术 ,而 应 该 有 一 套 综 合 管理 平台 实现 对 各 种 虚拟 化 技术 的 兼容 并 蓄 ,实现 不 同 技术 架构 的 
统一 管理 及 跨 技术 架构 的 资源 调度 .最终 达到 云 计算 可 运营 的 目的 。 


7.4 虚拟 平台 所 面临 的 安全 问题 


随 着 虚拟 化 技术 不 断 向 前 发 展 ,许多 单位 都 会 面 对 实 施 虚 拟 化 的 诱 人 理由 ,如 服务 器 的 
整合 、 更 快 的 硬件 ,使 用 上 的 简单 .灵活 的 快照 技术 等 ,这 都 使 得 虚拟 化 更 加 引 人 注 目 。 在 有 
些 机 构 中 ,虚拟 化 已 经 成 为 其 架构 中 的 重要 组 成 部 分 。 在 这 里 ,技术 再 次 走 在 了 最 佳 的 安全 
方法 的 前 面 。 随 着 机 构 对 灾难 恢复 和 业务 连续 性 的 重视 ,特别 是 在 金融 界 , 虚 拟 环境 正 变 得 
越 来 越 普遍 。 人 们 应 该 关注 这 种 繁荣 背后 的 隐忧 。 


7.4.1 使 用 虚拟 化 环境 时 存在 的 缺陷 


(1) 如 果 主 机 受到 破坏 ,那么 主要 的 主机 所 管理 的 客户 端 服务 器 有 可 能 被 攻克 。 

(2) 如 果 虚 拟 网 络 受到 破坏 ,那么 客户 端 也 会 受到 损害 。 

(3) 需要 保障 客户 端 共 享 和 主机 共享 的 安全 ,因为 这 些 共 享有 可 被 不 法 之 徒 利用 的 
漏洞 。 

(4) 如 果 主 机 有 问题 ,那么 所 有 的 虚拟 机 都 会 产生 问题 。 

(5) 虚拟 机 被 认为 是 二 级 主机 ,它们 具有 类 似 的 特性 ,并 以 与 物理 机 的 类 似 的 方式 运 
行 。 在 以 后 的 几 年 中 ,虚拟 机 和 物理 机 之 间 的 不 同 点 将 会 逐渐 减少 。 

(6) 在 涉及 虚拟 领域 时 ,最 少 特权 技术 并 没有 得 到 应 有 的 重视 ,甚至 遭 到 了 遗忘 。 这 项 
技术 可 以 减少 攻击 面 ,并 且 应 当 在 物理 的 和 类 似 的 虚拟 化 环境 中 采用 这 项 技术 。 


7.4.2 保障 虚拟 服务 器 环境 安全 的 措施 


(1) 升级 操作 系统 和 应 用 程序 ,应 当 在 所 有 的 虚拟 机 和 主机 上 进行 。 主 机 应 用 程序 应 
当 少 之 又 少 , 仅 安装 所 需要 的 程序 即 可 。 

(2) 在 不 同 的 虚拟 机 之 间 , 用 防火 墙 进行 隔离 和 防护 ,并 确保 只 能 处 理 经 许可 的 协议 。 

(3) 使 每 一 台 虚 拟 机 与 其 他 的 虚拟 机 和 主机 相隔 离 , 尽 可 能 地 在 所 有 方面 都 进行 隔离 。 

(4) 在 所 有 的 主机 和 虚拟 机 上 安装 和 更 新 反 病毒 机 制 , 因 为 虚拟 机 如 同 物理 机 器 一 样 

(5) 在 主机 和 虚拟 机 之 间 使 用 IPSEC 或 强化 加 密 , 因 为 虚拟 机 之 间 、 虚 拟 机 与 主机 之 
间 的 通信 可 能 被 嗅 探 和 破坏 。 虽 然 厂商 们 在 想方设法 改变 这 种 状况 ,但 目前 这 仍 是 一 真实 
的 威胁 。 企 业 仍 需要 最 佳 的 方法 来 对 机 器 之 间 的 通信 实施 加 密 。 
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(6) 不 要 从 主机 浏览 互联 网 ,间谍 软件 和 恶意 软件 所 造成 的 感染 仍 有 可 能 危害 主机 。 
记 住 ,主机 管理 着 虚拟 机 ,发 生 在 虚拟 机 上 的 问题 会 导致 严重 的 问题 和 潜在 的 “ 宕 机 ”时 间 、 
服务 的 丧失 等 。 

(7) 在 主机 上 保障 管理 员 和 管理 员 组 账户 的 安全 ,因为 未 授权 用 户 对 特权 账户 的 访问 
能 导致 严重 的 安全 损害 。 调 查 发 现 ,主机 上 的 管理 员 ( 根 ) 账 户 不 如 虚拟 机 上 的 账户 安全 。 
记 住 ,安全 性 是 由 最 弱 的 登录 点 决定 的 。 

(8) 强化 主机 操作 系统 ,并 终止 和 禁用 不 必要 的 服务 。 保 持 操作 系统 的 精简 ,可 以 减少 
被 攻击 的 机 会 。 

(9) 关闭 不 使 用 的 虚拟 机 。 如 果 不 需 要 虚拟 机 ,就 不 要 运行 它 。 

(10) 将 虚拟 机 整合 到 企业 的 安全 策略 中 。 

(11) 保证 主机 的 安全 ,确保 在 虚拟 机 离线 时 , 非 授 权 用 户 无 法 破坏 虚拟 机 文件 。 

(12) 采用 可 隔离 虚拟 机 管理 程序 的 方案 ,这 些 系统 可 以 进一步 隔离 和 更 好 地 保障 虚拟 
环境 的 安全 。 

(13) 确保 主机 驱动 程序 的 更 新 和 升级 ,这 会 保障 硬件 以 最 优 的 速度 运行 ,而 且 软 件 的 
更 新 可 极 大 地 减少 漏洞 利用 和 拒绝 服务 攻击 的 机 会 。 

(14) 要 禁用 虚拟 机 中 未 用 的 端口 。 如 果 虚 拟 机 环境 并 不 利用 端口 技术 ,就 应 当 禁 
用 它 。 

(15) 监视 主机 和 虚拟 主机 上 的 事件 日 志和 安全 事件 。 这 些 日 志 应 当 妥 善 保存 ,用 于 日 
后 的 安全 审计 。 

(16) 限制 并 减少 硬件 资源 的 共享 。 从 某 种 意义 上 讲 , 安 全 与 硬件 资源 共享 如 同 鱼 与 能 
掌 ,不 可 兼 得 。 在 资源 被 虚拟 机 轮流 共享 时 , 除 发 生 数据 泄露 外 ,拒绝 服务 攻击 也 将 是 家 常 
便 饭 。 

(17) 在 可 能 的 情况 下 ,保证 网 络 接口 卡 专用 于 每 一 个 虚拟 机 。 这 里 再 次 减轻 了 资源 共 
享 问题 ,并 且 虚 拟 机 的 通信 也 得 到 了 隔离 。 

(18) 投资 购买 可 满足 特定 目的 并 且 支持 虚拟 机 的 硬件 。 不 支持 虚拟 机 的 硬件 会 产生 
潜在 的 安全 问题 。 

(19) 分 区 可 产生 磁盘 边界 , 它 可 用 于 分 离 每 一 个 虚拟 机 并 可 在 其 专用 的 分 区 上 保障 安 
全 性 。 如 果 一 个 虚拟 机 超出 了 正常 的 限制 ,专用 分 区 会 限制 它 对 其 他 虚拟 机 的 影响 。 

(20) 要 保证 如 果 不 需要 互联 ,虚拟 机 不 能 彼此 连接 。 前 面 已 经 说 过 网 络 隔 离 的 重要 
性 。 要 进行 虚拟 机 之 间 的 通信 ,可 以 使 用 一 个 在 不 同 网 络 地 址 上 的 独立 网 络 接口 卡 ,这 比 将 
虚拟 机 之 间 的 通信 直接 推 向 暴露 的 网 络 要 安全 得 多 。 

(21) NAC 正 走向 虚拟 机 ,对 于 基于 虚拟 机 服务 器 的 设备 尤其 如 此 。 如 果 这 是 一 种 可 
以 启用 的 特性 ,那么 ,正确 的 实施 NAC 将 会 带 来 更 长 远 的 安全 性 。 

(22) 严格 管理 对 虚拟 机 特别 是 对 主机 的 远程 访问 可 以 使 暴露 的 可 能 性 更 少 。 

(23) 主机 代表 着 单个 失效 点 ,备份 和 连续 性 要 求 可 以 有 助 于 减少 这 种 风险 。 

(24) 避免 共享 IP 地 址 ,这 又 是 一 个 共享 资源 而 造成 问题 和 漏洞 的 典型 实例 。 

业界 已 经 开始 认识 到 ,虚拟 化 安全 并 不 是 像 人 们 看 待 物 理 安全 那样 简单 。 这 项 技术 带 
来 了 新 的 需要 面临 的 挑战 。 虚 拟 化 安全 是 一 项 必需 的 投资 。 如 果 一 个 单位 觉得 其 成 本 太 
高 ,那么 建议 最 好 不 要 采用 虚拟 化 ,可 坚持 使 用 物理 机 器 ,但 后 者 也 需要 安全 保障 。 
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7.5 虚拟 化 未 来 发 展 趋势 


在 当今 高 度 自动 化 .技术 驱动 的 经 济 环境 下 ,业务 能 力 与 IT 能 力 正 越发 密 不 可 分 。IT 
能 力 已 经 成 为 企业 推动 自身 业务 向 前 发 展 的 重要 赋 能 器 ,IT 基础 设施 从 根本 上 决定 了 业务 
的 成 败 。 

然而 ,由 于 IT 基础 架构 日 益 复杂 ,不 灵活 、 脆 弱 和 昂贵 正成 为 其 代名词 ,企业 IT 服务 
的 成 本 由 此 水 涨 船 高 ,导致 投资 预算 穷 于 应 付 IT 维护 ,无 法 最 大 限度 地 支持 业务 。 相 关 调 
查 显示 ,企业 70% 以 上 的 IT 预算 被 运用 于 基础 架构 和 应 用 程序 维护 以 维持 现状 ; 仅 有 不 到 
30% 的 IT 预算 被 运用 于 基础 架构 和 应 用 程序 的 投资 ,以 实现 竞争 优势 和 支持 企业 创新 。 

对 那些 希望 通过 IT 能 力 拥抱 业务 创新 梦想 的 企业 而 言 , 他 们 正 迫 切 寻 找 一 种 新 的 IT 
服务 模式 ,将 应 用 和 信息 从 底层 基础 架构 的 复杂 性 中 解脱 出 来 。 事实 上 ,这 正 是 当今 IT 行 
业 面 临 的 最 大 挑战 。 


7.5.1 被 重 构 的 IT 图景 


类 似 的 挑战 在 一 个 世纪 前 人 类 使 用 电力 的 进程 演变 中 也 曾 出 现 。 

当时 ,成 千 上 万 的 工厂 都 拥有 自己 的 发 电机 ,这 些 发 电机 能 解决 自身 的 能 源 动 力 问 题 。 
私人 发 电 设 施 的 存在 ,增加 了 工厂 主 的 固定 资产 投资 ,导致 可 用 资本 无 法 运用 于 直接 推动 业 
务 增长 的 领域 。 同 时 ,一 旦 技术 过 时 或 设备 出 现 故障 , 便 意 味 着 庞大 的 更 新 及 维护 费用 。 

此 后 ,科技 和 工程 的 一 系列 进步 使 具备 中 央 形 态 的 大 型 电厂 开始 出 现 。 大 型 电厂 集中 
生产 的 规模 经 济 效 应 ,促使 电力 成 本 大 幅 降低 ,效率 急剧 提升 ,使 电力 行业 逐渐 成 为 一 种 公 
用 事业 。 对 工厂 主 而 言 ,他 们 不 必 再 自 建 发 电 设施 , 转 而 从 更 加 高 效 的 大 型 电厂 购买 廉价 
电力 。 

如 今 ,电力 生产 在 一 个 世纪 前 遭遇 的 变革 正在 IT 行业 酝酿 。 由 单个 公司 生产 和 运营 
IT 系统 的 状况 正在 被 中 央 数 据 处 理工 厂 通 过 公共 网 络 取代 。IT 正在 逐渐 演变 成 公用 设 
施 ,完成 从 工具 到 效用 的 转变 .并 由 此 诞生 了 一 种 思 新 的 IT 服务 模式 ,这 便 是 云 计算 。 

云 计算 是 一 种 全 新 的 运算 方式 ,IT 基础 架构 可 以 作为 一 种 可 靠 的 .可 随处 获取 的 公用 
设施 服务 向 用 户 提供 ,其 概念 类 似 于 电力 .电话 。 全 球技 术 研究 和 咨询 公司 Gartner 对 云 计 
算 的 描述 是 “一 种 新 的 运算 方式 ,将 可 扩展 的 .富有 弹性 的 IT 功能 作为 一 种 服务 提供 ,获得 
更 好 的 技术 共享 (尤其 是 多 租户 应 用 或 虚拟 机 ) ,增强 的 自动 化 ,快速 动态 的 改变 ,政策 驱动 
及 面向 服务 ,减少 的 复杂 性 以 及 自动 响应 ”。 

云 计算 能 有 效 降低 成 本 、 增 加 灵活 性 和 提升 服务 质量 ,将 应 用 和 信息 从 底层 基础 架构 的 
复杂 性 中 解脱 出 来 ,使 IT 能 够 专注 于 支持 和 提升 业务 价值 。 


7.5.2 云 计 算 的 演进 


基于 硬件 和 软件 基础 架构 的 传统 计算 模式 ,让 位 于 基于 应 用 和 服务 提供 的 云 计算 模式 

是 一 个 必然 经 历 的 过 程 。 但 是 ,由 于 商业 、 技 术 ,管理 等 多 个 层面 的 挑战 ,该 转变 过 程 尚 需 经 
历 三 个 重要 的 阶段 。 
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首先 ,需要 将 现 有 的 数据 中 心 转 化 为 内 部 云 (Internal Cloud) 。 内 部 云 服 务 是 一 种 在 内 
部 IT 环境 中 提供 的 云 基础 架构 , 它 为 内 部 的 IT 服务 提供 者 带 来 了 云 计 算 的 好 处 。 例 如 ， 
一 些 大 型 企业 在 全 球 往往 有 多 个 大 型 的 数据 中 心 ,每 个 数据 中 心 进行 数据 处 理 的 繁忙 时 段 
并 不 相同 。 在 如 今 网 络 传输 速度 早已 不 是 问题 的 情况 下 ,一 旦 企业 认为 自己 所 处 地 理 位 置 
的 数据 中 心 无 法 满足 当前 数据 处 理 要 求 时 , 便 可 将 任务 远程 交付 于 此 刻 处 于 闲置 状态 的 其 
他 数据 中 心 。 这 便 是 内 部 云 服务 。 

其 次 , 当 内 部 云 服务 出 现 之 后 , 除 单个 企业 内 部 的 有 效 运 用 之 外 ,同一 行业 或 具备 相同 
特性 的 对 等 企业 之 间 也 可 实现 数据 处 理 服 务 的 交换 ,这 就 是 外 部 云 (External Cloud) 服 务 。 

外 部 云 服务 是 一 种 由 托管 或 SaaS 提供 商 等 外 部 IT 服务 提供 商 提供 并 管理 的 云 基 础 架 
构 。 举 例 来 说 ,当前 有 许多 企业 一 方面 不 希望 无 穷尽 地 进行 IT 投资 , 另 一 方面 其 实际 的 IT 
需求 正 有 增 无 减 。 面 对 这 样 的 挑战 ,企业 之 间 可 以 通过 相关 手段 利用 对 方 的 资源 。 例 如 , 目 
前 以 银行 为 代表 的 众多 机 构 ,运算 资源 每 年 只 为 满足 短 短 几 天 的 峰值 运算 要 求 , 其 他 时 间 段 
则 处 于 闲置 状态 。 假 如 其 他 企业 和 希望 在 不 影响 银行 本 身 的 管理 和 安全 机 制 的 情况 下 租用 闲 
置 的 运算 资源 为 其 服务 ,这 便 是 内 部 云 服 务 。 当 然 ,对 于 未 来 的 外 部 云 IT 提供 商 而 言 ,能 
否 建立 完善 的 管理 机 制 .安全 机 人 制 、 费 用 清算 机 制 以 及 具备 足够 的 公信 和 力 ,将 是 外 部 云 能 否 
尽早 实现 的 决定 因素 。 

最 后 ,是 公共 云 (Public Cloud) 服 务 。 该 服务 通常 由 第 三 方 服务 提供 商 通过 公共 或 开放 
的 网 络 向 用 户 提供 。 就 中 国 市 场 而 言 ,最终 扮 演 公 共 云 提供 商 角 色 的 厂商 或 机 构 ,必然 会 与 
拥有 网 络 资源 的 电信 运营 商 产 生 某 种 程度 的 结合 。 电 信 运 营 商 将 会 在 涉及 安全 、 计 费 等 领 
成 与 包括 虚拟 化 解决 方案 提供 商 在 内 的 IT 厂商 紧密 协作 ,共同 构建 公共 云 。 

在 早期 ,业界 更 多 地 将 目光 投向 了 外 部 的 公共 云 服务 ,企图 完全 利用 新 的 应 用 满足 业务 
需求 。 然 而 ,现实 是 残酷 的 ,很 少 企 业 会 因为 新 的 架构 而 抛弃 现 有 应 用 。 实 践 证 明 , 只 有 遵 
循 渐进 的 、 非 破坏 性 的 发 展 路 径 才能 使 * 云 "真正 落地 。 

面 对 这 一 挑战 ,全 球 桌 面 到 数据 中 心虚 拟 化 解决 方案 厂商 采取 了 更 为 注重 实效 的 方法 。 
首先 ,将 现 有 的 数据 中 心 转化 为 内 部 云 。 同 时 ,与 托管 和 服务 提供 商 合作 ,共同 实现 可 兼容 
的 外 部 云 。 随 后 ,通过 在 云 之 间 进 行 联邦 和 统一 管理 ,使 内 部 资源 和 可 利用 的 外 部 资源 链接 
起 来 ,帮助 企业 获得 云 计 算 的 所 有 好 处 和 灵活 性 ,这 一 结果 实质 上 就 是 “虚拟 私有 云 ”。 

作为 一 种 跨越 内 部 云 和 外 部 云 基础 架构 的 云 计算 环境 ,虚拟 私有 云 为 业务 提供 无 颖 的 、 
可 管理 的 云 。 这 一 概念 类 似 于 目前 的 虚拟 专用 网 络 (VPN) 。 如 图 7-22 所 示 ,虚拟 专用 网 络 
是 为 适应 业务 需求 .通过 连接 局 域 网 (LAN) 与 广域网 (WAN) 资 源 , 提 供 跨 地 域 的 、 高 效 的 


[ 分布 式 外 理  ] 





Pas 分 布 式 处 理 如 MapReduce、Jobkeeper 
i 分 布 式 数据 库 如 HBase、 数 据 立方 
TaaS 云 存 储 虚拟 化 


如 HDFS、cStor 如 VMware、OpenStack 
图 7-22 架构 示意 图 
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网 络 访问 和 连接 。 通 过 利用 内 部 和 外 部 的 公共 基础 架构 ,虚拟 专用 网 络 提供 了 极 好 的 成 本 
效益 。 此 外 ,该 业务 通过 无 颖 地 接 人 网 络 ,控制 整个 网 络 的 接 人 和 安全 。 这 些 概 念 同样 适用 
于 虚拟 私有 云 。 内 部 资源 和 外 部 可 利用 资源 的 结合 ,最 大 限度 地 提高 了 成 本 效益 ,并 且 保 持 
了 对 整体 IT 基础 架构 的 控制 。 与 虚拟 专用 网 络 可 跨 网 络 服务 提供 商 运 行 类 似 , 虚 拟 私有 
云 也 可 以 跨 服务 提供 商 ,从 而 确保 灵活 性 和 选择 性 。 

虚拟 私有 云 原则 上 有 两 个 基本 前 提 : 第 一 ,基础 架构 实现 100% 的 虚拟 化 ,包括 处 理 器 、 
存储 、 网 络 等 。 第 二 ,在 可 管理 的 服务 水 平 协议 CSLA) 下 , 它 能 够 跨越 公共 的 、 可 利用 的 外 部 
基础 架构 与 可 操作 的 内 部 基础 架构 。 

虚拟 私有 云 在 集团 IT 控制 之 下 带 来 了 云 计算 的 一 系列 好 处 。 

首先 ,基于 虚拟 私有 云 , 需 要 推出 新 业务 服务 的 应 用 提供 者 ,能够 不 受 服务 .存储 和 网 络 
等 基础 架构 复杂 性 的 影响 ,专注 于 提供 商业 价值 。 

其 次 ,更 好 的 成 本 效益 。 这 意味 着 去 除了 不 必要 的 投资 ,获得 更 低 的 总 拥有 成 本 并 且 使 
花费 在 管理 和 维护 IT 基础 架构 上 的 时 间 和 投资 最 小 化 。 用 商业 术语 来 说 ,成 本 效益 就 是 
指 极 大 地 节省 投资 成 本 和 运营 成 本 。 利 用 VMware 领先 的 虚拟 化 解决 方案 以 及 对 跨 内 部 
云 和 外 部 云 基础 架构 的 资源 进行 自动 化 管理 和 动态 优化 .VMware vSphere 4 实现 了 最 高 的 
整合 率 。 这 一 结果 最 直接 的 影响 就 是 突破 了 昂贵 的 应 用 和 信息 提供 模式 ,将 传统 的 \ 依 赖 于 
特定 系统 和 架构 的 应 用 和 信息 提供 模式 转变 成 自 管理 ,动态 优化 的 环境 ,从 而 最 有 效 地 提供 
业务 服务 。 

最 后 ,是 宽泛 的 选择 性 。 利 用 VMware vSphere 4, 客 户 可 以 保持 选择 的 灵活 性 ,继续 独 
立 于 硬件 .操作 系统 .应 用 栈 和 服务 提供 商 。 这 就 意味 着 客户 既 可 以 支持 他 们 现 有 的 应 用 ， 
又 可 以 对 将 来 的 应 用 部 署 有 充分 的 信心 ,灵活 地 在 内 部 云 或 外 部 云 上 部 署 应 用 。 


任务 拓展 


. 什么 是 虚拟 化 ? 

. 请 简单 介绍 四 种 虚拟 化 架构 。 

.ESX 虚拟 化 架构 有 哪些 优 劣 势 ? 

. 虚拟 化 技术 为 什么 可 以 作为 云 技术 的 基础 ? 
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第 8 章 灾 备 系统 设计 与 典型 案例 分 析 


(人 任务 目标 
。 了 解 硬件 灾 备 架构 
。 了 解数 据 灾 备 架构 ; 
。 了 解 成 本 控制 与 风险 控制 ; 
。 学习 典型 灾 备 案例 。 


现今 无 论 对 于 大 型 企业 还 是 其 他 组 织 ,都 拥有 为 数 众 多 的 服务 器 ,而 其 中 的 数据 则 是 最 
为 重要 的 财产 。 系 统 故障 的 出 现 ,可 能 导致 企业 生产 停顿 ,政府 部 门 无 法 正常 履行 职能 等 严 
重 后 果 。 因 此 ,保持 业务 的 持续 性 是 用 户 在 选择 计算 机 系统 .部署 数据 存储 的 重要 指标 。 究 
其 根本 原因 ,保护 业务 持续 性 的 重要 手段 就 是 提高 计算 机 系统 的 高 可 靠 性 ,同时 将 数据 的 损 
失 降 至 最 低 限 度 。 

RTO/RPO 是 数据 灾 备 系统 的 两 个 非常 重要 的 指标 ,所 有 灾 备 系统 搭建 都 是 以 RTO/ 
RPO 为 目标 来 进行 定制 ,但 是 RTO/RPO 值 越 小 ,其 灾 备 系统 面临 的 架构 会 越 复杂 ,建设 系 
统 的 成 本 会 越 昂贵 。 作 为 项 目 实施 方案 的 规划 者 ,必须 充分 了 解 系统 自身 架构 ,充分 理解 系 
统 的 实际 用 途 , 并 且 结合 自身 的 合理 判断 ,来 提供 最 切合 实际 的 解决 方案 。 

本 章 介绍 硬件 和 数据 灾 备 架构 ,以 及 成 本 控制 与 风险 分 析 , 并 列举 典型 案例 ,介绍 通过 
实际 系统 需求 分 析 来 为 项 目 搭配 合适 的 应 用 及 数据 灾 备 架构 。 以 此 让 大 家 进一步 加 深 对 灾 
备 系统 在 现实 生活 中 的 作用 。 

需要 特别 注意 的 是 ,本 章 典型 案例 的 介绍 和 示意 图 均 以 应 用 和 数据 灾 备 功能 描述 为 主 ， 
案例 将 对 系统 本 身 应 用 及 硬件 架构 进行 简化 ,以 方便 大 家 的 理解 。 实 际 应 用 中 ,大 多 数 机 构 
的 业务 系统 架构 会 比 本 章 案例 更 复杂 。 


(入 
(2 项 目 描述 

聚 比 特 科技 有 限 公司 已 经 构建 了 自己 的 灾 备 系统 ,为 了 提高 自身 灾 备 系统 的 可 用 性 ,加 
强 对 灾 备 系统 的 掌握 ,公司 要 求 技 术 部 门 对 灾 备 系统 进行 各 种 场景 下 的 模拟 和 测试 ,明确 优 
势 , 避 免 劣 势 , 增 强 灾 备 系统 的 实际 运用 水 平 。 
(项 分 析 

聚 比 特 科技 有 限 公司 技术 部 针对 自身 灾 备 系统 进行 认真 分 析 , 结合 灾 备 系统 的 两 大 指标 


数据 安全 与 灾 备 管理 


RTO/RPO, 发 现 了 自身 灾 备 系统 的 优势 和 缺点 ,决定 对 公司 灾 备 系统 进行 一 次 大 的 改造 升级 。 


AAA 
\& 项 目 实现 

聚 比特 科技 有 限 公 司 技术 部 认真 研讨 改进 和 升级 设计 思路 ,明确 灾 备 系统 设计 原则 ,模拟 
公司 可 能 遇 到 的 数据 安全 威胁 ,并 参考 各 典型 案例 ,为 灾 备 系统 的 升级 定 下 了 明确 的 目标 和 实 
施 办 法 。 





8.1 灾 备 需求 分 析 


8.1.1 信息 可 行 性 分 析 


全 面 详尽 的 风险 分 析 是 数据 中 心 灾 备 体系 设计 的 基础 ,风险 分 析 方 法 包括 以 下 方面 。 

(1) 资产 识别 。 主 要 包括 基础 设施 .硬件 软件 .数据 文档 、 服 务 和 声誉 等 。 单 位 应 对 资 
产 进行 分 类 ,以 区 分 资产 的 不 同 重要 程度 并 确定 重要 资产 的 范围 ,应 对 资产 进行 标识 以 区 分 资 
产 对 业务 正常 运作 的 影响 程度 , 据 此 确定 资产 的 等 级 。 

(2) 威胁 识别 。 即 识别 信息 资产 构成 潜在 破坏 的 可 能 性 因素 ,如 自然 因素 与 人 为 因素 、 内 
部 因素 与 外 部 因素 等 。 

(3) 脆弱 性 识别 。 即 识别 可 能 被 威胁 利用 的 信息 资产 的 弱点 ,主要 包括 技术 与 管理 两 个 方 
面 。 技 术 脆 弱 性 涉及 物理 层 、 网 络 层 、 系 统 层 \ 应 用 层 等 各 个 层面 的 安全 问题 ;管理 脆弱 性 可 分 为 
技术 管理 脆弱 性 和 组 织 管理 脆弱 性 两 方面 ,前 者 与 具体 技术 活动 相关 ,后 者 与 管理 环境 相关 。 

具体 分 析 活 动 可 通过 问卷 调查 .工具 检测 \ 人 工 核查 ,文档 查阅 和 渗透 性 测试 等 方式 开 
展 。 完 成 风险 分 析 后 ,需要 根据 灾难 发 生 的 可 能 性 .灾难 发 生 后 的 损失 预计 等 因素 ,计算 对 
应 的 风险 值 ,进行 风险 分 级 ,为 后 续 分 析 工 作 提供 参考 。 


8.1.2 故障 分 析 


1 定义 

业务 影响 分 析 (Business Impact Analysis,BIA) 的 目的 是 确定 不 同业 务 遭 遇 到 风险 后 对 企 
业 的 影响 程度 。 通 过 分 析 有 形 的 和 无 形 的 影响 ,估算 对 停止 业务 时 间 长 短 的 接受 情况 和 使 影 
响 降 至 最 低 的 处 理 需求 ,对 灾 备 的 具体 实现 提出 明确 要 求 。BIA 的 目标 包括 以 下 内 容 。 

(1) 识别 和 量化 每 个 业务 单元 或 者 资源 对 整个 企业 在 业务 运行 方面 的 影响 。 

(2) 识别 潜在 的 失效 场景 和 评估 潜在 的 威胁 。 

(3) 定义 针对 不 同 的 灾难 恢复 要 求 所 需要 的 不 同 级 别 的 投资 情况 。 

(4) 建立 灾难 恢复 时 的 恢复 流程 优先 级 ,指导 灾难 备份 恢复 策略 的 制定 。 

2. 业务 影响 分 析 的 方法 

业务 功能 地 位 分 析 。 可 从 业务 功能 的 政策 要 求 .是 否 为 核心 业务 .业务 涉及 的 机 构 与 用 户 范 
围 . 业 务 处 理 实时 性 与 频 度 、 业 务 功能 与 机 构 内 外 其 他 业务 功能 的 关联 等 多 个 角度 综合 分 析 。 

业务 中 断 影响 评估 主要 包括 两 个 方面 .一 是 以 量化 的 方法 ,评估 业务 中 断 可 能 带 来 的 直 
接 与 间接 经 济 损失 ;二 是 以 非 量 化 的 方法 ,评估 业务 中 断 所 引发 的 社会 影响 、 法 律 影响 、 信 用 
影响 、 品 牌 影 响 等 。 
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业务 影响 分 析 最 终 将 影响 对 灾难 备份 体系 的 需求 ,根据 规范 的 要 求 , 灾 备 体系 的 需求 必 
须 明确 需求 等 级 、 各 等 级 对 应 的 最 低 恢复 要 求 以 及 恢复 的 优先 级 。 主 要 指标 有 RTO 
(Recover Time Objective) , 即 灾难 发 生 后 ,信息 系统 从 停顿 到 恢复 正常 的 时 间 要 求 ;以 及 
RPO(Recover Point Objective) . 即 灾难 发 生 后 ,数据 必须 恢复 到 正常 状态 的 时 间 要 求 。 灾 
难 恢 复 能 力 等 级 与 上 述 两 项 指标 的 参照 要 求 如 表 8-1 所 示 。 


表 8-1 灾难 恢复 能 力 等 级 及 RTO、RPO 指标 要 求 























灾难 恢复 能 力 等 级 RTO RPO 
1 2 天 以 上 了 天 
2 24 小 时 以 上 1~7 天 
3 12 小 时 以 上 数 小 时 至 1 天 
4 数 小 时 至 2 天 数 小 时 至 1 天 
5 数 分 钟 至 2 天 0 一 30 分 钟 
6 数 分 钟 无 限 趋 近 于 0 








8.1.3 基础 架构 分 析 


数据 中 心 技术 体 系 分 析 是 灾 备 技术 体系 建设 的 基础 , 灾 备 技术 体系 与 数据 技术 体系 匹 
配 程度 的 高 低 , 决 定 了 灾 备 中 心 对 数据 中 心 生 产 环境 的 可 替代 程度 ,对 于 高 效 实 现 灾 难 恢 
复 , 提 高 灾 备 中 心 可 用 性 有 重要 意义 。 对 数据 中 心 技术 体系 的 分 析 主 要 从 以 下 两 方面 人 手 。 

(1) 基础 运行 环境 分 析 。 在 确保 灾 备 中 心 与 数据 中 心 技术 架构 基本 一 致 的 前 提 下 , 明 
确 所 需要 的 设备 类 型 和 数量 ,对 机 房 配 电 、 空 调 、 地 板 承重 以 及 布线 的 具体 要 求 等 基础 环境 
信息 ,为 选择 具体 的 灾 备 环境 提供 参考 。 

(2) 应 用 部 署 特点 分 析 。 主 要 分 析 各 类 应 用 部 署 平台 的 情况 .应 用 之 间 的 数据 依赖 关 
系 、 应 用 正常 运行 需要 数据 质量 、 应 用 正常 启动 和 异常 启动 需要 的 时 间 等 关键 因素 ,作为 灾 
备 中 心 应 用 体系 构建 的 基础 。 

例如 , 某 集团 数据 中 心 ,生产 拓扑 图 如 图 8-1 所 示 。 根 据 用 户 的 现 有 情况 ,用 户 提 出 了 
以 下 需求 。 

1. 数据 备份 

需求 : 需要 对 现 有 网 站 服务 器 文件 数据 、ERP 服务 器 文件 数据 以 及 数据 库 数据 进行 定 
时 备份 。 

分 析 : 用 户 目前 的 网 络 架构 清晰 ,设施 设备 运行 情况 良好 ,网 络 环境 优越 且 有 足够 的 网 
络 带宽 支撑 灾 备 系统 建设 ,系统 管理 人 员 相 对 紧张 ,技术 薄弱 。 

建议 : 备份 服务 器 十 备份 软件 十 备份 介质 。 采 用 存储 备份 数据 ,生产 机 实时 向 备份 发 
送 关键 数据 ,如 图 8-2 所 示 。 

2. 云 桌 面 备 份 

需求 : 需要 对 虚拟 化 桌面 平台 进行 虚拟 桌面 备份 。 

分 析 : 虚拟 化 桌面 平台 对 外 服务 ,员工 使 用 虚拟 桌面 创建 数据 ,此 类 平台 特点 为 虚拟 桌 
面 多 ,数据 类 型 不 一 ,每 个 人 操作 习惯 \ 时 间 ,文件 类 型 不 同 。 
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2 本 2 要 2 二 2 


办 公 计 算 机 办 公 计 算 机 办 公 计 算 机 办 公 计 算 机 





光纤 交换 机 光纤 交换 机 


磁盘 阵列 磁盘 阵列 
8-1 某 集团 数据 中 心 生 产 拓扑 图 





磁盘 阵列 磁盘 阵列 备份 介质 
图 8-2 某 集团 生产 中 心 灾 备 方案 拓扑 图 


建议 : 采用 云 桌面 备份 方式 ,常见 的 云 桌面 备份 方式 步骤 如 下 。 
(1) 检测 目标 PC 开机 ,查看 记录 ,了 解 该 PC 今日 是 否 已 完成 备份 ,开启 备份 任务 。 
(2) 备份 过 程 中 该 PC 关机 ,备份 任务 停止 并 记录 。 
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(3) 该 PC 开机 ,发 现 有 备份 任务 未 完成 ,继续 完成 该 备份 任务 。 

(4) 检测 到 PC 开机 ,但 记录 中 显示 该 PC 今日 已 做 过 备份 ,所 以 不 触发 备份 任务 。 

3. 业务 接管 

需求 : 网 站 服务 器 支撑 公司 官网 系统 ,数据 库 服 务 器 中 由 Oracle 数据 库 提供 服务 ,用 户 
需要 让 服务 器 实时 对 外 提供 服务 。 

分 析 : 此 类 系统 部 署 简单 ,需要 有 一 套装 有 相同 应 用 系统 的 硬件 支撑 。 

建议 : 双 机 软件 十 服务 器 , 当 生 产 系 统 出 现 物理 故障 ,会 有 相同 的 一 套 系统 接管 业务 ， 
实时 对 外 服务 。 如 图 8-3 所 示 。 


办 公 计 算 机 。 ”办公 计算 机 ”办公 计算 机 。 ”办公 计 算 机 





磁盘 阵列 磁盘 阵列 备份 介质 
8-3 某 集团 生产 中 心 云 桌面 备份 拓扑 图 


4. 灾 备 中 心 建设 方案 

需求 : 随 着 业务 发 展 的 壮大 ,用 户 提出 了 更 高 的 灾 备 需求 ,需要 在 本 地 ( 另 一 大 楼 ) 建 立 
一 灾 备 机 房 ,并 将 ERP 服务 器 实时 接管 到 灾 备 机 房 且 做 到 数据 的 实时 复制 。 

分 析 : 异地 机 房 建设 ,可 保证 生产 机 房 发 生 故 障 时 能 不 影响 对 外 业务 ,此 灾 备 方案 既 能 
做 到 异地 灾 备 且 投 入 相对 较 小 。 

建议 : 采用 CDP 技术 ,可 保证 IP 可 达 , 能 实时 接管 业务 并 对 外 提供 服务 ,如 图 8-4 
所 示 。 

5. 双 活 数据 中 心 

需求 : 因 成 本 考虑 ,用 户 希 望 灾 备 机 房 设备 能 对 外 提供 服务 .减轻 生产 系统 的 压力 。 

分 析 : 该 需求 主要 考虑 的 是 同步 数据 两 端 都 需要 数据 是 实时 可 用 的 ,是 互 为 同步 的 ,这 
样 才能 保证 两 中 心 均 可 对 外 提供 业务 。 

建议 : 在 本 地 机 房 建立 灾 备 中 心 , 部 署 双 活 数据 中 心 , 灾 备 端 实时 对 外 提供 服务 ,减轻 
生产 系统 压力 ,如 图 8-5 所 示 。 
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6. 两 地 三 中 心 灾 备 

需求 : 为 防止 本 地 地 震 、 大 面积 停电 、 战 争 等 可 能 导致 本 地 两 机 房 同 时 无 法 运行 的 情 
况 , 需 要 在 异地 建立 灾 备 中 心 。 

分 析 : 该 架构 就 是 灾 备 中 心 和 双 活 中 心 的 结合 体 , 既 有 双 活 中 心 的 宛 余 系 统 架 构 , 也 有 
异地 的 灾 备 效果 ,如 图 8-6 所 示 。 

建议 : 远程 异地 建设 灾 备 中 心 ,防止 大 面积 灾难 事故 造成 的 影响 。 





办 公 计算 机 办 公 计 算 机 办 公 计 算 机 办 公 计算 机 办 公 计算 机 办 公 计 算 机 办 公 计算 机 办 公 计算 机 







数据 库 数据 库 ” ”刀片 机 柜 
小 型 计算 机 小 型 计算 机 i 
i 平台 ) 


光纤 交换 机 


备份 介质 





磁盘 阵列 磁盘 阵列 磁盘 阵列 


磁盘 阵列 


数据 互 为 同步 


数据 复制 数据 复制 





网 站 网 站 ERP 数据 库 数据 库 刀片 机 柜 
服务 器 服务 器 服务 器 。 ”小 型 计算 机 。 小 型 计算 机 。 (虚拟 化 桌面 平台 ) 


图 8-6 某 集团 生产 中 心 两 地 三 中 心 拓扑 图 
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8.2 系统 的 设计 思路 和 设计 原则 


8.2.1 系统 设计 的 理论 依据 和 规范 


本 技术 方案 将 参照 以 下 标准 和 规范 : 

(1)《 信 息 系统 灾难 恢复 规范 》(GB/T 20988 一 2007); 

(2)《 计 算 机 场地 安全 要 求 GB/T 9361 一 2000); 

(3)《 信 息 技 术 信息 安全 管理 实用 规则 》(GB/T 19716 一 2005)， 
(4) 美国 国家 标准 和 技术 学 会 推荐 的 《信息 系统 应 急 计 划 指 南 》。 


8.2.2 系统 设计 方法 论 


政务 数据 资源 中 心 的 建设 将 通过 对 成 都 市 信息 办 各 应 用 系统 的 需求 及 各 委 办 局 应 用 系 
统 及 IT 基础 环境 的 调研 ,结合 政务 数据 资源 中 心 IT 资源 的 实际 情况 ,制定 出 符合 不 同 应 
用 系统 特点 的 数据 存储 及 备份 策略 ,根据 不 同 的 数据 存储 及 备份 策略 ,采用 相应 的 技术 和 产 
品 ,并 提出 数据 资源 备份 中 心 系 统 运行 和 维护 方案 ,具体 方法 如 下 。 

(1) 现 有 系统 资源 调查 : 通过 标准 的 系统 资源 调查 问卷 ,了 解 信息 办 生产 系统 及 各 单 
位 IT 基础 环境 情况 (包括 IT 基础 设施 情况 .应 用 系统 情况 、 网 络 连接 架构 等 ) 。 

(2) 数据 备份 需求 调查 : 通过 与 成 都 市 信息 办 及 各 部 委 办 的 访谈 ,了 解 各 单位 数据 容 
量 及 备份 的 需求 ,包括 数据 类 型 .数据 容量 和 分 布 情况 .数据 备份 的 频率 和 数据 恢复 要 求 。 

(3) 数据 备份 需求 分 析 : 对 采集 的 各 单位 数据 进行 分 析 。 

(4) 制定 数据 备份 的 策略 : 根据 需求 分 析 结 论 ,进行 数据 容量 规划 和 制定 数据 备份 策 
略 ,采取 相应 的 产品 和 技术 手段 。 

(5) 制定 政务 数据 资源 中 心 建设 方案 : 方案 的 内 容 包括 对 政务 数据 资源 中 心 的 IT 资 
源 分析 , 备 份 数 据 资源 整合 建议 ,数据 备份 与 恢复 建议 ` 运 维 管理 建议 .专业 化 服务 建议 。 

(6) 制定 政务 数据 资源 中 心 的 实施 方案 : 实施 方案 主要 包括 系统 实施 计划 、 实 施 内 容 、 
实施 策略 等 。 


8.2.3 技术 路 线 


1， 系统 可 用 性 

系统 可 用 性 机 制 是 系统 安全 平稳 运行 的 可 靠 保 证 ,在 政务 数据 资源 中 心 的 存储 设备 和 
备份 设备 中 要 提供 相应 的 数据 保护 机 制 和 数据 验证 机 制 ,数据 保护 机 制 是 指 对 政务 数据 次 
源 中 心 的 数据 提供 RAID 级 数据 保护 ,并 根据 不 同 数据 类 型 提供 不 同 的 RAID 级 别 , 以 提高 
数据 的 安全 性 和 可 靠 性 ;数据 验证 机 制 是 指定 期 对 数据 的 完整 性 .一 致 性 和 可 用 性 进行 验 
证 ,保证 备份 数据 的 可 用 性 。 

2. 抗灾 能 力 

按照 灾难 恢复 和 业务 连续 性 体系 建设 的 相关 规范 ,制定 切实 可 行 的 灾难 恢复 策略 和 灾 
难 恢复 预案 ,并 根据 应 用 系统 的 特点 进行 定期 演练 ,提高 系统 抵御 灾难 的 能 力 。 

3. 技术 支持 能 力 

技术 支持 能 力主 要 体现 在 对 外 技术 支持 能 力 和 对 内 技术 支持 能 力 两 个 方面 ,其 中 对 外 
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支持 能 力主 要 体现 在 对 各 委 办 局 提供 的 后 台 技术 支持 ,包括 数据 备份 与 恢复 服务 .数据 测试 
服务 、 应 急 响 应 预案 及 演练 数据 验证 服务 和 培训 服务 等 。 对 内 支持 能 力主 要 体现 在 对 政务 
数据 资源 中 心 内 部 IT 基础 设施 的 支持 能 力 ,包括 政务 数据 资源 中 心 自身 生产 系统 的 运行 
和 数据 存储 实施 及 测试 服务 .本 地 数据 备份 服务 .培训 服务 等 。 

4. 运 维 管理 能 力 

系统 运 维 管理 能 力主 要 体现 在 对 政务 数据 资源 中 心 各 种 资源 的 运 维 管理 能 力 ,由 于 这 
些 资源 在 集成 运行 中 的 不 确定 性 ,系统 故障 随时 都 有 可 能 发 生 , 因 此 需要 建立 一 整套 系统 运 
行 维护 管理 体系 来 保证 系统 的 稳定 运行 ,本 项 目的 系统 运 维 管理 体系 建设 主要 包括 IT 系 
统 监控 .运行 维护 管理 的 制度 和 流程 . 运 维 管理 人 员 组 织 架构 和 岗位 职责 等 。 

5. 系统 可 恢复 能 力 

系统 的 可 恢复 能 力主 要 包括 数据 的 可 恢复 能 力 和 应 用 系统 的 可 恢复 能 力 两 个 方面 ,本 
期 主要 考虑 数据 的 可 恢复 能 力 。 数 据 的 可 恢复 能 力主 要 是 通过 对 数据 完整 性 和 一 致 性 检验 
手段 ,可 以 保证 政务 数据 资源 中 心 数据 的 可 用 性 ,一 旦 生产 数据 出 现 故障 ,备份 的 数据 应 能 
够 回 传 到 生产 中 心 并 恢复 ,保证 生产 业务 系统 的 正常 运行 。 


8.2.4 系统 设计 原则 


1. 标准 性 原则 

由 于 各 应 用 系统 的 IT 设备 .技术 手段 和 数据 格式 有 所 不 同 , 要 想 建立 统一 的 数据 备份 
平台 和 应 用 平台 ,就 必须 依照 国际 上 的 规范 和 标准 ,并 采用 符合 国际 标准 的 接口 .规范 和 协 
议 , 以 保证 各 种 异 构 平台 之 间 的 无 缝 连接。 

2. 安全 性 和 可 靠 性 原则 

为 数据 和 应 用 的 安全 性 和 可 靠 性 ,应 该 从 技术 手段 .备份 策略 、 软 硬件 产品 等 多 方面 对 
安全 性 和 可 靠 性 做 出 保证 。 为 了 保证 数据 安全 ,除了 建立 可 靠 数 据 备份 系统 之 外 ,还 要 采用 
成 熟 的 技术 和 成 熟 的 软 硬 件 产品 。 

3. 先进 性 和 成 熟 性 原则 

数据 中 心 对 主机 设备 、 网 络 设备 和 存储 设备 的 性 能 、 容 量 、 知 吐 能 力 及 稳定 性 ,安全 性 要 
求 很 高 ,在 设计 过 程 中 ,要 充分 借鉴 国内 外 流行 的 主流 产品 和 技术 ,使 用 成 熟 的 模式 和 先进 
的 备份 技术 以 及 业界 领先 的 产品 ,才能 使 备份 系统 不 断 地 保持 其 先进 性 和 技术 的 延续 性 。 

4. 实用 性 原则 

在 建立 数据 备份 产品 的 选择 上 应 充分 考虑 产品 的 性 能 价格 比 ,在 确保 功能 实现 和 性 能 
稳定 的 基础 上 ,采用 实用 性 高 的 产品 ,同时 还 要 考虑 对 现 有 资源 的 保护 。 

5. 灵活 性 和 扩展 性 原则 

数据 中 心 的 服务 是 一 个 长 期 持续 的 过 程 , 随 着 生产 系统 的 增加 及 更 多 的 系统 接 人 ,数据 
存储 和 备份 需求 将 逐步 增长 ,因此 数据 备份 系统 应 具有 良好 的 扩充 能 力 和 灵活 的 体系 架构 ， 
以 满足 现在 乃至 未 来 较 长 一 段 时 间 内 的 数据 容量 和 用 户 数量 增长 的 需求 ,并 具备 支持 未 来 
关键 系统 应 用 级 灾 备 的 能 力 。 

6. 可 维护 性 和 可 管理 性 原则 

数据 中 心 的 系统 涉及 多 种 IT 系统 ,为 了 保证 系统 良好 运转 ,要 求 系统 具有 良好 的 可 维 
护 性 和 可 管理 性 ,采用 功能 强大 的 系统 监控 机 制 ,实现 对 数据 存储 、 备 份 .恢复 的 全 过 程 监控 
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和 故障 告警 。 
8.3 备份 系统 建设 的 重要 性 


计算 机 系统 可 轻松 进行 复杂 工作 中 巨大 数据 量 的 处 理工 作 , 却 也 同样 因 其 保存 有 巨大 
数据 量 的 信息 而 存在 一 些 数据 安全 上 的 隐患 。 一 旦 因为 这 些 隐患 导致 数据 丢失 ,其 造成 的 
损失 几乎 无 法 通过 人 力 来 达到 短 时 间 恢 复 。 


8.3.1 系统 灾难 分 析 


1. 灾难 类 型 

(1) 自然 灾害 

造成 计算 机 灾难 的 自然 灾害 有 火灾 ,水 灾 、 和 雷击、 台风 、 地 震 、 鼠 害 等 。 

(2) 计算 机 系统 故障 

引起 计算 机 系统 故障 的 因素 有 下 述 几 点 。 

Q@ 主机 系统 故障 : 主要 指数 据 库 系统 故障 .系统 软件 故障 、 硬 盘 损坏 、 网 卡 故障 .电源 
故障 应 用 系统 缺陷 及 其 他 故障 。 

@ 主机 房 故障 : 主要 指 主机 房 电源 故障 、 主 机房 通信 故障 .主机 房 水 灾 .主机 房 火 灾 及 
主机 房 鼠 害 。 

@ 整 幢 楼 房 故障 : 主要 指 整 幢 楼 房 电源 故障 、 整 幢 楼 房 火灾 或 水 灾 、 整 幢 楼 房 其 他 

(3) 人 为 因素 

应 用 系统 缺陷 、. 误 操作 、 人 为 蓄意 破坏 、 外 来 暴力 事件 等 ,都 将 直接 影响 系统 的 安全 
运行 。 

2. 系统 灾难 统计 

图 8-7 所 示 为 国内 银行 业 信息 系统 灾难 情况 统计 数据 。 
人 运行 故障 占 7% 


外 部下 出 占 10% ~ 一 网 络 故障 占 3% 


台风 二 346、 










-一 一 一 


主机 故障 占 22% 


病毒 占 7% 






火灾 占 7% ~ 


存储 故障 占 7% 


电源 故障 占 14% 
图 8-7 系统 灾难 统计 图 
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8.3.2 国家 对 数据 安全 的 重视 
国家 及 监管 部 门 对 加 强 重要 信息 系统 安全 保障 工作 非常 重视 ,先后 出 台 了 多 项 有 关 信 
息 安全 的 意见 和 指导 建议 。 其 中 部 分 管理 规定 及 文件 如 表 8-2 所 示 。 
表 8-2 信息 系统 安全 保障 的 部 分 管理 规定 及 文件 表 
发 布 部 门 发 布 时 间 名 称 


《国家 信息 化 领导 小 组 关于 加 强 信息 安全 保障 
工作 的 意见 (中 办 发 [2003]27 号 ) 


国务 院 信息 化 工作 办 公 室 2005 《重要 信息 系统 灾难 恢复 指南 》 


国家 标准 《信息 系统 灾难 恢复 规范 》(GB/T 
20988 一 2007) 











中 共 中 央 办 公 厅 、 国 务 院 办 公 厅 2003 














国务 院 信息 化 工作 办 公 室 2007 年 7 月 


8.3.3 备份 系统 保护 数据 安全 


备份 系统 是 一 套 针对 应 用 连续 性 和 数据 安全 性 保护 的 系统 , 它 通过 统一 化 、 自 动 化 的 操 
作对 系统 应 用 和 数据 进行 有 针对 性 的 保护 动作 。 


8.3.4 备份 系统 的 保护 场景 


按照 监管 机 构 关于 《信息 系统 灾难 恢复 规范 》 中 重要 信息 系统 应 急 预 案 的 要 求 ,应 急 场 
景 应 覆盖 电力 故障 、 通 信 线 路 故障 、 火 情 水 灾 、 大 规模 区 域 性 灾难 、 治 安 、 病 毒 爆发 网络 攻 
击 、 人 为 破坏 ,不 可 抗力 、 计 算 机 硬件 故障 、 操 作 系 统 故障 、 系 统 漏洞 .应 用 系统 故障 以 及 其 他 
各 类 与 信息 系统 相关 的 故障 。 这 些 故障 由 于 在 爆发 的 诱因 、 破 坏 程度 和 造成 的 影响 等 方面 
都 有 所 不 同 , 因 此 应 针对 不 同 场景 发 生 时 制定 相应 的 应 急 处 置 手 段 和 策略 。 


8.4 典型 案例 分 析 


8.4.1 基本 数据 保护 及 数据 归档 场景 


基本 数据 保护 场景 常用 于 机 构 系 统 可 接受 数据 少量 丢失 ,系统 恢复 时 间 一 天 以 上 的 情 
况 。 而 数据 归档 场景 常用 于 机 构 系统 数据 需要 长 时 间 保存 的 情况 。 

以 档案 局 为 例 , 档 案 局 的 工作 主要 是 负责 接收 、 征 集 、 整 理 地 区 党 政 机 关 的 重要 档案 资 
料 ,收集 散失 在 地 区 内 外 与 地 区 有 关 的 档案 文件 和 史料 ,做 好 机 关 、 企 事业 单位 的 档案 管理 
工作 ,做 好 档案 编 研 和 利用 工作 。 所 以 档案 局 每 天 都 会 进行 大 量 的 档案 录入 ,并 且 按 照 国家 
规定 ,档案 的 保存 时 间 一 般 都 长 达 20 年 以 上 。 

档案 局 在 建立 灾 备 系统 的 时 候 ,就 需要 从 安全 性 、 可 进行 数据 归档 、 后 期 维护 难度 以 及 
建设 成 本 进行 考虑 。 

1. 档案 局 系统 的 特点 

档案 局 系统 的 特点 如 下 。 

(1) 数据 量 非 常 大 ,而 且 根 据 类 别 不 同 ,数据 会 存放 在 各 种 系统 平台 下 ,如 Windows、 
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Linux、UNIX 等 。 

(2) 数据 可 以 接受 短 时 间 的 数据 丢失 ,一般 来 说 是 24 小 时 内 ,因为 有 档案 原件 在 ,数据 
少量 丢失 可 迅速 重新 录入 。 

(3) 普通 系统 可 接受 短 时 间 停 用 ,一 般 来 说 是 1 一 2 天 ,不 会 影响 其 主要 工作 。 核 心 系 
统 可 通过 虚拟 化 进行 应 用 级 保护 。 

(4) 数据 需要 进行 长 期 归档 ,通常 是 将 数据 备份 到 物理 磁带 库 中 进行 归档 。 

2. 可 进行 的 分 析 

根据 档案 局 的 特点 ,可 以 进行 以 下 分 析 。 

(1) 数据 存放 在 多 种 系统 平台 下 ,所 以 不 能 采用 CDP 的 方式 进行 备份 。 

(2) 数据 可 以 接受 短 时 间 的 丢失 ,从 成 本 考虑 ,可 采用 定时 备份 架构 。 

(3) 数据 需要 归档 ,但 直接 备份 到 物理 磁带 库 中 ,会 使 得 备份 及 还 原 时 间 大 幅 提 高 ,可 
考虑 采用 D2D2T 架构 (Disk-to-Disk-to-Tape) ,也 就 是 先 将 数据 备份 到 磁盘 阵列 或 VTL 
中 ,再 从 后 台 慢 慢 将 备份 数据 导入 物理 磁带 库 , 以 便 归档 。 

如 此 ,档案 局 的 灾 备 架构 就 展现 出 来 了 ,如 图 8-8 所 示 。 


国 


CS 


服务 器 





业务 存储 备份 介质 物理 磁带 库 
8-8 基本 数据 保护 及 数据 归档 场景 拓扑 图 


上 图 中 将 备份 服务 器 、 备 份 存储 、 物 理 磁带 库 连 入 原 有 系统 的 SAN 环境 中 , 即 可 进行 
数据 备份 及 数据 归档 工作 。 

3. 备份 的 过 程 

备份 的 过 程 如 下 。 

(1) 备份 服务 器 根据 制定 的 策略 ,对 每 个 服务 器 的 客户 端 发 出 备份 指令 。 

(2) 服务 器 上 的 备份 客户 端 接收 到 备份 服务 器 发 送 的 指令 后 ,快速 定位 需要 备份 的 数 
据 ,并 将 数据 在 内 存 中 进行 加 密 后 传输 到 备份 介质 中 。 

(3) 传输 过 程 完成 以 后 ,备份 系统 还 需要 对 备份 介质 中 的 数据 进行 可 用 性 检查 ,检查 通 
过 后 提交 备份 服务 器 ,这 时 备份 服务 器 会 把 该 备份 任务 标记 为 “完成 ”。 

(4) 备份 任务 完成 后 .备份 服务 器 将 启动 数据 归档 任务 .直接 将 备份 介质 里 的 数据 传送 
到 物理 磁带 库 中 进行 归档 保存 。 
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4. 优势 

该 架构 的 优势 表现 在 以 下 几 方 面 。 

(1) 在 数据 发 生 丢失 或 者 产生 逻辑 性 故障 时 ,备份 服务 器 可 以 直接 调用 备份 介质 中 的 数 
据 对 业务 数据 进行 还 原 。 

(2) 备份 数据 转移 到 磁带 库 的 动作 可 以 直接 通过 高 速 的 存储 网 络 进 行 ,而 不 用 占用 业 
务 网 络 , 并 且 不 会 增加 前 端的 备份 时 间 窗 口 。 


8.4.2 应 用 保护 场景 


应 用 保护 场景 常见 于 机 构 部 分 关键 应 用 不 能 长 时 间 停 机 (RTO 值 小 ) 的 场景 。 

以 医院 为 例 , 医 院 系 统 平台 是 由 多 种 系统 构成 的 ,主要 由 HIS、LIS、PACS 等 系统 承担 
其 主要 功能 。 

医院 信息 系统 (Hospital Information System,HIS) 是 覆盖 医院 所 有 业务 和 业务 全 过 程 
的 信息 管理 系统 ,其 为 医院 所 属 各 部 门 提供 病人 诊疗 信息 和 行政 管理 信息 的 收集 存储 、 处 
理 、 提 取 和 数据 交换 功能 并 满足 授权 用 户 的 功能 需求 。 可 见 一 旦 医院 的 HIS 发 生 故 障 , 将 
直接 导致 医院 的 各 项 工作 无 法 开展 。 医 院 作 为 一 个 24 小 时 对 公众 开放 的 社会 机 构 ,一 旦 无 
法 工作 ,不仅 将 造成 医院 的 直接 经 济 损失 ,甚至 可 能 增加 社会 不 稳定 因素 。 

医院 检验 系统 (Laboratory Information Management System,LIMS) 是 HIS 的 一 个 重 
要 的 组 成 部 分 ,其 主要 功能 是 将 检验 的 实验 仪器 传 出 的 检验 数据 经 分 析 , 生 成 检验 报告 ,这 
样 医生 能 够 方便 、 及 时 地 看 到 患者 的 检验 结果 ,其 主要 依附 于 HIS 进行 统一 管理 。 

影像 归档 和 通信 系统 (Picture Archiving and Communication Systems, PACS) 是 应 用 
在 医院 影像 科室 里 的 系统 ,主要 的 任务 就 是 把 日 常 产生 的 各 种 医学 影像 (包括 核磁 CT、 超 
声 . 各 种 X 光 机 ` 各 种 红外 仪 及 显 微 仪 等 设备 产生 的 图 像 ) 通 过 各 种 接口 以 数字 化 的 方式 保 
存 起 来 , 当 需 要 的 时 候 能 够 很 快 地 调 回 使 用 ,同时 辅助 医生 诊断 管理 。 

可 以 罗列 出 医院 主要 系统 的 特点 如 下 。 

(1) HIS、LIS 的 RTO 值 必须 要 低 。 

(2) PACS 的 影像 数据 较 多 ,这 部 分 数据 量 大 ,同时 PACS 的 RTO 要 求 没有 HIS 那 
么 小 。 

根据 以 上 系统 的 特点 ,可 以 进行 分 析 如 下 。 

(1) HIS、LIS 要 求 RTO 值 低 ,所 以 需要 考虑 采用 数据 复制 /镜像 的 方式 进行 保护 。 

(2) 数据 复制 /镜像 无 法 解决 数据 的 迎 辑 性 故障 ,所 以 需要 增加 定时 备份 。 

(3) PACS 数据 量 大 ,采用 数据 复制 /镜像 的 方式 会 占用 大 量 网 络 资源 ,可 采用 定时 备 
份 的 方式 ,在 医院 业务 较 少 的 时 候 , 比 如 凌晨 以 后 再 进行 备份 。 

(4) 同时 ,在 考虑 应 用 结构 的 同时 ,还 需要 了 解 相关 机 构 的 政策 条 款 。 比 如 医院 级 别 评 
审 中 明确 对 备份 做 了 要 求 , 要 求 必 须 有 异地 备份 .所 以 在 规划 医院 的 灾 备 系统 时 ,需要 将 异 
地 灾 备 考虑 在 内 。 

综 上 所 述 ,医院 的 灾 备 架构 基本 如 图 8-9 所 示 。 

由 上 图 可 见 , 异 地 灾 备 机 房 有 一 套 备 用 的 HIS、LIS 服务 器 ,通过 数据 复制 技术 ,保证 业 
务 服务 器 和 备用 服务 器 的 数据 一 致 ,一 旦 业务 服务 器 发 生 故障 ,可 马上 让 备用 服务 器 将 所 有 
业务 进行 接管 ,保证 业务 的 连续 运行 。 同 时 ,PACS 通过 备份 软件 将 数据 备份 到 异地 灾 备 机 
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8-9 医院 的 灾 备 架构 


房 的 备份 存储 中 ,提高 了 其 数据 安全 等 级 。 

该 架构 的 优势 如 下 。 

(1) HIS/LIS 在 灾 备 机 房 有 一 套 完 整 的 应 用 系统 和 数据 ,一 旦 业务 机 房 发 生 故 障 , 可 迅 
速 将 灾 备 系统 激活 ,让 业务 流转 移 到 灾 备 机 房 ,减少 业务 的 停 用 时 间 ,并 且 给 业务 机 房 足够 
的 维修 时 间 。 

(2) 所 有 系统 均 通 过 定时 备份 的 方式 把 数据 保存 在 异地 灾 备 机 房 ,补足 了 数据 同步 无 
法 解决 数据 迎 辑 性 故障 的 问题 。 

(3) 所 有 数据 在 异地 灾 备 机 房 都 有 一 份 备份 ,一 旦 发 生 规模 型 灾难 ,如 火灾 ,电击 、 地 震 
等 导致 业务 机 房 设备 大 面积 损坏 ,可 以 确保 有 一 套 完整 的 数据 不 至 于 丢失 ,为 灾后 重建 提供 
支持 。 


8.4.3 大 型 灾 备 场景 


大 型 灾 备 场景 常见 于 机 构 系 统 非常 庞大 ,系统 业务 连续 性 要 求 和 数据 安全 等 级 非常 高 
的 情况 。 

以 银行 为 例 , 银 行业 在 现代 经 济 社会 中 占据 重要 地 位 ,每 时 每 刻 都 在 为 大 众 提供 服务 ， 
一 旦 银行 的 系统 发 生 故 障 而 导致 业务 无 法 正常 运行 ,所 造成 的 损失 和 社会 影响 是 无 法 估 
量 的 。 

根据 银行 系统 的 特点 ,可 以 分 析 如 下 。 

(1) 系统 非常 庞大 ,可 通过 数据 双 活 实现 双 中 心 共 同 运行 业务 。 

(2) 双 活 中 心 可 解决 业务 连续 性 的 高 要 求 。 

(3) 数据 安全 等 级 非常 高 ,可 建立 异地 灾 备 中 心 来 进行 数据 的 安全 保护 。 

综 上 所 述 ,银行 系统 架构 可 采用 两 地 三 中 心 的 方式 进行 规划 ,如 图 8-10 所 示 。 

图 中 的 A、B 两 中 心机 房 建立 在 同一 个 城市 的 不 同位 置 上 ,而 灾 备 中 心 建立 在 另外 一 个 
城市 中 。A 中 心机 房 和 了 中心 机房 同时 运行 不 同 的 业务 系统 ,同时 A、B 两 中 心机 房 各 自 有 
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对 方 的 一 套 系统 ,通过 数据 双 活 ,A、B 两 中 心机 房 的 数据 达到 完全 一 致 且 都 可 以 实时 使 用 。 
这 种 情况 下 ,一 旦 A 中 心机 房 发 生 故 障 ,B 中 心机 房 可 马上 将 A 中 心机 房 的 业务 接管 过 来 ， 


保持 业务 的 连续 性 。 


另外 , 灾 备 中 心 有 一 套 完 整 的 A、B 中 心机 房 的 业务 系统 ,如 果 A、B 中 心机 房 同时 发 生 
故障 (如 该 城市 发 生 强烈 地 震 ) , 灾 备 中 心 可 迅速 将 A、B 两 中 心机 房 的 业务 接管 ,防止 业务 


长 时 间 地 地 断 。 
该 架构 的 优势 如 下 。 


(1) 拥有 各 种 数据 保护 方式 ,可 以 根据 不 同 的 灾难 级 别 选择 不 同 的 还 原 操作 ,使 得 数据 


服务 器 服务 咒 ′ 备 份 服务 器 


备份 存储 业务 存储 








图 8-10 大 型 灾 备 场景 拓扑 图 


恢复 能 达到 最 快 和 最 好 的 效果 。 
(2) 双 活 数据 中 心 可 以 降低 用 户 在 业务 系统 上 的 投入 ,提高 设备 利用 效率 。 
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(3) 可 防止 例如 地 震 、 泥 石 流 、 战 争 等 影响 整个 城市 的 大 规模 灾难 ,为 企业 的 灾后 重建 
给 予 强 有 力 的 数据 保障 。 


任务 拓展 


1. 硬件 灾 备 架构 和 数据 灾 备 架构 的 区 别 是 什么 ? 

2. 为 什么 CDP 无 法 代替 定时 备份 ? 

3. 为 什么 需要 进行 成 本 和 风险 控制 ? 

4. 针对 医院 的 HIS/LIS 系统 应 该 如 何 搭建 灾 备 系统 ? 
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第 9 章 数据 中 心安 全 运 维 


(Gy 任务 目标 

。 了 解数 据 中 心 运 维 体系 ; 

。 了 解数 据 中 心 运 维 管理 制度 ; 

。 了 解数 据 中 心安 全 管理 服务 。 
(@ Mpa 

一 套 系统 从 规划 诞生 到 部 署 实施 再 到 开始 使 用 ,只 是 这 套 系 统 漫 长 生命 周期 的 一 瞬 , 伴 
随 系统 终身 的 是 对 这 套 系统 的 维护 。 

统 是 否 能 长 期 稳定 地 运行 ,是 否 能 充分 满足 客户 的 需求 , 均 离 不 开 系 统 运 维 工 作 , 而 

运 维 工 作 中 的 安全 运 维 则 是 重 中 之 重 。 


(ce 
Ne 项 目 描述 

随 着 聚 比 特 科技 有 限 公司 的 不 断 发 展 ,其 数据 中 心 业 务 也 越 来 越 多 ,公司 安全 运 维 要 求 
也 逐渐 提 上 日 程 ,所 以 必须 制定 安全 运 维 办 法 ,来 确保 数据 中 心 稳定 健康 地 运行 。 
(项 分 析 

聚 比特 科技 有 限 公司 根 据 各 项 国际 标准 ,并 吸取 国际 各 大 公司 的 运 维 管 理 经 验 ,制定 出 
一 套 适 合 自身 的 安全 运 维 管理 办 法 。 
人 项 目 实现 


根据 对 国际 标准 ,在 充分 了 解 运 维 管理 体系 后 ,制定 详细 的 运 维 管理 制度 和 安全 管理 
服务 。 


9.1 运 维 体系 介绍 


随 着 数据 中 心服 务 于 更 多 客户 ,数据 中 心 对 灾 备 中 心 运营 管理 有 了 越 来 越 深 的 理解 。 
参照 ISO27001、ISO9001、ISO20000(ITIL) ITSS 等 国际 、 国 内 和 行业 标准 以 及 最 佳 实践 的 
要 求 , 根 据 灾难 备份 和 业务 连续 性 的 服务 重点 及 运营 特点 ,数据 中 心 建立 了 更 加 规范 、 高 效 
的 运营 管理 体系 ,用 以 规范 数据 中 心 的 日 常 工作 及 保持 持续 稳定 的 运行 。 
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9.1.1 运 维 管理 服务 体系 


灾 备 中 心 的 运营 管理 服务 体系 是 以 国际 通行 的 IT 服务 管理 标准 一 一 ITIL 为 基础 , 结 
合 灾难 备份 运营 服务 的 专业 特点 而 建立 的 。 数 据 中 心 的 运营 管理 服务 体系 历经 了 多 个 客 
户 、 多 种 平台 的 灾 备 系统 长 期 稳定 运行 的 检验 , 灾 备 中 心 的 运营 管理 服务 体系 日 百 完 善 。 

整个 服务 体系 归纳 概括 为 灾 备 中 心 运营 服务 的 “三 大 要 求 、 四 大 服务 方面 ”, 如 图 9-1 
所 示 。 





C—O 
《质量 管理 》 《信息 安全 管理 》 | 《信息 技术 服务 管理 》 
ISO 9001 ISO 27001 ISO 20000 


图 9-1 灾 备 中 心 运 营 服务 


1. 三 大 要 求 

(1) 运营 服务 的 高 响应 要 求 整个 服务 体系 的 重 中 之 重 ,也 是 对 灾难 恢复 系统 运营 
外 包 服 务 公司 专业 度 与 服务 质量 的 最 直接 考验 .其 关注 的 是 服务 的 及 时 性 与 客户 导向 。 当 
宣告 灾难 恢复 后 ,只 有 高 响应 度 的 服务 提供 商 , 才 能 够 按 既 定 的 服务 流程 在 第 一 时 间 为 客户 
提供 应 急 与 切换 服务 ,并 根据 客户 的 特殊 要 求 提出 合理 的 灾难 应 急 解决 方案 并 接替 生产 运 
营 , 从 而 最 大 可 能 地 减轻 灾难 事件 对 客户 的 影响 。 为 此 , 灾 备 中 心 在 不 同 的 运营 服务 阶段 提 
供 相 应 的 服务 接口 与 服务 人 员 的 组 织 架 构 , 保 证 对 服务 响应 度 的 要 求 。 

(2) 运营 服务 的 高 可 靠 要 求 这 是 整个 服务 体系 的 保障 ,从 管理 手段 和 服务 流程 上 
保证 响应 度 与 可 用 性 的 落实 。 具 体 体现 在 对 现 有 人 员 ,资源 与 技术 在 执行 层面 上 的 标准 化 、 
制度 化 ,规范 化 。 只 有 这 样 ,才能 确保 当 发 生 不 可 预测 的 灾难 事件 时 , 灾 备 系统 能 够 真正 起 
到 灾难 恢复 .业务 连续 的 保障 作用 。 灾 备 中 心 的 运营 服务 人 员 都 具备 丰富 的 灾 备 系统 运营 
管理 经 验 ;此 外 , 灾 备 中 心 通过 采用 先进 的 系统 监控 技术 手段 以 及 严 并 的 服务 流程 ,有 效 地 
保证 灾 备 系统 运营 服务 的 可 靠 性 。 

(3) 运营 服务 的 高 可 用 要 求 这 是 整个 服务 体系 的 基础 ,从 中 心 资源 .业务 正常 处 理 
流程 与 人 员 的 支持 上 ,为 应 急 响应 ,系统 切换 与 接替 生产 运行 的 服务 工作 黄 定 基础 。 灾 备 中 
心 从 灾难 恢复 计划 的 制订 咨询 ,到 灾 备 系统 建设 实施 的 整个 过 程 中 ,特别 是 在 灾 备 系统 的 长 
期 运营 服务 期 间 ,都 充分 考虑 到 对 灾 备 服务 可 用 人 性 的 需求 ,在 系统 方案 .运营 服务 方案 中 具 
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体 落 实 。 

2. 四 大 服务 方面 

(1) 服务 人 员 一 一 主要 指 落实 包括 服务 内 容 、 服 务 接口 与 服务 流程 在 内 的 各 项 具体 服 
务 的 人 员 基 础 。 

(2) 服务 内 容 一 一 主要 指 灾 备 中 心 提供 的 专业 灾难 恢复 系统 运营 外 包 服 务 的 具体 
内 容 。 

(3) 服务 流程 一 一 主要 是 灾 备 中 心 为 规范 内 部 尤其 是 涉及 灾 备 系统 层面 所 执行 的 各 项 
工作 流程 ,从 制度 上 保障 上 述 各 项 服务 的 顺利 提供 。 

(4) 服务 接口 一 一 主要 指 灾 备 中 心 提供 服务 的 各 种 界面 ,目的 是 使 双方 之 间 的 信息 与 

“家 备 申 心 基于 ITIL 标准 体系 ， 根据 灾 备 系统 运营 服务 的 特点 ,进一步 强化 四 大 服 
务 方面 的 具体 内 涵 , 形 成 专业 灾难 恢复 系统 运营 外 包 的 服务 体系 具体 框架 ,具体 如 
表 9-1 所 示 。 





表 9-1 灾难 恢复 系统 运营 外 包 的 服务 体系 图 

















服务 方面 服 务 细 项 

服务 内 容 日 常 监控 与 维护 服务 ,数据 验证 服务 、 问 题 管理 ,变更 管理 ,安全 管理 服务 、 灾 难 恢 
复 管理 服务 ,灾难 恢复 预案 维护 服务 .灾难 应 急 及 恢复 服务 .接替 生产 运行 服务 

服务 人 员 日 常 运营 团队 、 技 术 支持 团队 ,客户 服务 团队 应急 响 应 服务 团队 

服务 接口 客户 经 理 .24 小 时 服务 热线 .服务 报告 与 会 议 ,应急 响 应 服务 

服务 流程 事件 管理 ,变更 管理 ,问题 管理 ,应 急 管理 ,服务 水 平 管理 


3. 运 维 管理 阶段 划分 

数据 中 心 在 服务 的 具体 实施 过 程 中 ,从 服务 核心 到 服务 细 项 形成 了 完整 的 服务 体系 ,此 
外 还 以 时 间 为 主线 将 灾难 恢复 系统 运营 服务 提供 的 过 程 划 分 成 日 常 运营 ,应急 与 恢复 和 接 
替 生产 运营 三 个 阶段 ,每 个 不 同 阶段 的 工作 重点 各 不 相同 ,真正 切合 客户 的 需求 。 具 体 如 
表 9-2 所 示 。 


表 9-2 不 同 阶段 运营 服务 


























项 目 日 常 运行 服务 灾难 应 急 和 恢复 服务 接替 生产 运营 服务 
服务 目标 | 高 可 用 性 ,高 可 靠 性 高 响应 度 高 可 靠 性 ,高 可 用 性 
日 常 监控 与 维护 服务 ,系统 验证 服 
服务 内 容 | 务 ,安全 管理 服务 ,灾难 恢复 演练 服 | 灾难 应 急 及 恢复 服务 接替 生产 运营 服务 
务 , 灾 难 恢复 预案 维护 服务 
服务 人 员 日 常 运营 团队 ,技术 支持 团队 ,客户 | 应 急 响应 团队 ,技术 支持 | 运营 支持 团队 ,技术 支持 
服务 团队 团队 ,客户 服务 团队 团队 ,客户 服务 团队 
服务 接口 客户 经 理 ,24 小 时 服务 热线 ,服务 | 24 小 时 应 急 服务 热线 ,应 | 客户 经 理 , 24 小 时 服务 
报告 与 会 议 急 响 应 服务 热线 
事件 管理 ,变更 管理 ,问题 管理 , 服 事件 管理 ,问题 管理 ,变更 
服务 流程 务 水 平 管理 应 急 管理 管理 
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9.1.2 服务 提升 工具 


在 信息 系统 基础 运 维 服务 中 ,涉及 对 政务 资源 中 心 及 灾 备 系统 的 主机 、 存 储 、 网 络 .数据 
库 、 中 间 件 等 IT 系统 的 监控 服务 ,为 实现 统一 监控 、 集 中 告警 .主动 运 维 的 目标 ,GDS 建议 
采用 业界 领先 的 IBM Tivoli 产品 实现 对 各 种 IT 设备 性 能 监控 ,采用 BMC Remedy 流程 管 
理 平 台 实 现 政务 资源 中 心 生 产 和 灾 备 系统 的 统一 运 维 。 


9.1.3 运 维 监控 平台 的 建设 原则 


(1) 先进 性 与 成 熟 性 原则 

采用 先进 成熟 和 业界 领先 的 IT 系统 监控 产品 和 流程 开发 工具 ,建立 全 面 的 IT 资源 
监控 体系 和 IT 服务 流程 管理 体系 。 

(2) 集中 统一 原则 

@ 通过 统一 事件 管理 平台 对 各 种 IT 资源 监控 产生 的 事件 信息 进行 整合 并 进行 统一 分 
析 处 理 。 

@ 通过 综合 监视 展现 平台 实现 对 各 种 IT 监控 要 素 的 事件 信息 、 性 能 信息 和 资产 信息 
进行 全 方位 监控 。 

(3) 标准 性 与 规范 原则 

Q@ 指标 的 规范 性 : 按照 监控 指标 要 求实 现 对 各 类 监控 要 素 的 全 面 监 控 。 

@ 接口 的 规范 性 : 按照 规范 接口 标准 实现 与 生产 中 心 和 灾 备 中 心 运 维 监控 系统 的 
对 接 。 

@ 流程 的 规范 性 : 按照 ITIL 的 标准 和 规范 建立 IT 服务 流程 管理 体系 。 

(4) 可 定制 化 原则 

@ 监控 产品 的 可 定制 化 : 除了 实现 对 标准 的 IT 资源 进行 监控 外 ,还 应 通过 定制 化 手 
段 实现 对 特殊 IT 对 象 的 监控 。 

@ 监控 流程 的 可 定制 化 : 采用 先进 的 流程 开发 工具 开发 规范 的 运 维 服务 流程 。 

@ 监控 界面 的 可 定制 化 : 开发 具有 政务 资源 中 心 特色 的 统一 监控 门户 ,在 统一 监控 界 
面 上 采用 多 角度 .多 方位 的 监控 视图 ,全 面 反映 系统 的 运行 状态 。 

(5) 投资 保护 与 技术 延续 性 原则 

政务 资源 中 心 的 运 维 监控 系统 将 建立 在 对 现 有 主机 和 存储 监控 的 基础 上 ,根据 新 的 服 
务 需 求 加 以 扩展 和 完善 ,保护 原 有 的 投资 和 技术 的 延续 性 。 

(6) 自动 化 与 智能 化 原则 

Q@ 事件 处 理 的 自动 化 : 对 于 监控 到 的 重要 事件 应 能 自动 生产 工 单 ,并 能 自动 以 多 种 人 
性 化 的 方式 通知 系统 维护 人 员 。 

@ 事件 分 析 的 智能 化 : 事件 管理 模块 应 具有 智能 的 事件 关联 分 析 和 事件 过 滤 功 能 ,以 
方便 进行 故障 定位 。 

(7) 可 扩展 与 高 度 集成 原则 

@ 监控 系统 的 可 扩展 性 原则 : 随 着 政务 资源 中 心服 务 职能 的 扩展 ,IT 资源 将 不 断 扩 
充 , 这 就 要 求 运 维 监控 系统 具有 和 良好 的 扩展 能 力 , 以 适应 IT 资源 的 扩充 需求 。 

@ 高 度 集成 原则 : IT 运 维 监控 系统 将 由 多 个 子 系统 构成 ,各 子 系统 之 间 应 建立 完备 的 
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开发 工具 和 接口 规范 ,以 便 将 各 个 子 系统 进行 高 度 集成 。 

(8) 安全 性 与 稳定 性 原则 

中 安全 性 : 由 于 政务 中 心 的 运 维 监控 系统 是 实现 对 政务 系统 及 各 委 办 局 重要 业务 系 
统 的 监控 ,一 旦 系统 出 现 故 障 ,应 要 求 在 第 一 时 间 了 予以 响应 ,否则 将 对 业务 系统 造成 严重 影 
响 , 因 此 监控 系统 的 安全 等 级 应 与 IT 系统 的 安全 要 求 相 适应 。 

@ 稳定 性 : 未 来 重要 的 政务 系统 将 需要 7X24 小 时 连续 运行 ,任何 时 刻 IT 系统 出 现 
故障 时 , 运 维 监控 系统 应 立即 通知 维护 人 员 了 予以 解决 ,为 保证 系统 监控 的 有 效 性 和 响应 的 及 
时 性 , 运 维 监 控 系统 应 具有 良好 的 容错 能 力 ,保证 运 维 监 控 系 统 运行 的 稳定 性 。 

@ 生产 系统 运行 的 稳定 性 : IT 系统 监控 需要 在 监控 对 象 中 安装 监控 代理 ,以 实时 地 收 
集 性 能 数据 ,对 生产 系统 的 性 能 造成 一 定 的 影响 ,因此 运 维 监控 系统 应 保证 对 生产 系统 资源 
占用 最 小 ,确保 对 生产 系统 正常 运行 影响 最 小 。 


9.1.4 系统 集中 监控 方案 


1. 主机 系统 监控 

目前 GDS 的 数据 中 心 采 用 IBM Tivoli Monitoring 来 实现 对 主机 可 靠 性 管理 ,针对 政 
务 资源 中 心 的 主机 系统 ,GDS 将 在 政务 资源 中 心 的 主机 上 安装 ITM 监控 代理 ,收集 主机 的 
性 能 .状态 和 警告 信息 ,并 发 送 到 后 台 的 监控 服务 器 上 ,实现 对 所 有 主机 的 统一 监控 。 当 服 
务 器 系统 发 生 问题 时 ,可 以 迅速 报警 ,使 管理 员 可 以 及 时 获知 系统 出 现 的 问题 ,通过 IBM 
Tivoli Monitoring 对 系统 重要 的 资源 进行 监控 ,并 定义 门限 值 ,一 旦 发 现 超过 门限 值 , 则 将 
事件 通知 管理 员 。 为 保证 系统 的 可 靠 性 ,会 对 服务 器 的 一 些 重要 资源 进行 监控 ,包括 : 四 服 
务 器 的 状态 ; @ 重 要 进程 状态 ; @ 磁 盘 空 间 ; @ 性 能 超过 指标 ; @ 文 件 的 修改 情况 ; @ 日 志 
文件 的 变化 情况 。 

管理 员 定义 对 这 些 参 数 的 门限 值 ,可 以 根据 不 同 的 值 定义 不 同 的 警告 级 别 和 相应 的 报 
警方 式 , 如 磁盘 空间 利用 率 达 到 80% 为 Warning( 警 告 ) 状 态 , 记 录 日 志文 件 ;90% 为 Critical 
状态 ,报警 到 故障 控制 台 。 

2. 存储 系统 监控 

在 政务 资源 数据 中 心 的 系统 中 ,大 部 分 服务 器 与 存储 设备 均 通过 光纤 交换 机 以 SAN 
的 方式 进行 连接 , 即 在 服务 器 与 存储 设备 之 间 构 成 了 一 个 存储 区 域 网 络 。 由 于 SAN 网 络 
的 使 用 ,必须 建立 相应 的 管理 维护 机 制 和 工作 管理 流程 ,才能 充分 发 挥 SAN 网 络 和 数据 集 
中 的 优势 。 通 过 SAN 上 蜡 构 平 台 的 数据 共享 ,提高 存储 效率 。 通 过 存储 域 网 络 管理 软件 ， 
监控 存储 域 网 络 的 状态 ,及 时 预报 和 发 现 故障 ,监控 网 络 性 能 。 通 过 存储 域 网 络 管理 软件 直 
接 设 置 和 配置 存储 设备 的 连接 和 分 配 ,通过 软件 完成 一 些 以 前 需 手工 维护 的 工作 。 同 时 , 通 
过 存储 域 网 络 资源 管理 软件 ,分 析 解 决 存储 域 网 络 可 能 出 现 的 问题 ,生成 分 析 报 表 , 使 管理 
人 员 和 维护 人 员 对 存储 系统 的 状况 了 如 指 掌 。 

SAN 存储 系统 管理 主要 由 四 部 分 组 成 ,具体 描述 如 下 。 

(1) 存储 网 络 管理 

@ 发 现代 理 程序 。 通 过 内 部 管理 和 外 部 管理 两 种 方式 实现 对 SAN 网 络 的 信息 搜索 。 
内 部 管理 是 指 搜集 流 过 SAN 本 身 的 信息 ;外 部 管理 是 指 通过 TCP/IP 连接 ,通常 通过 
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SNMP MIB 来 搜集 信息 。 
@ SAN 网 络 拓扑 管理 。SAN 网 络 拓扑 管理 将 以 图 形 的 方式 显示 了 SAN 结构 中 的 
所 有 部 件 ,如 磁盘 阵列 、 光 纤 磁 带 库 、 主 机 系统 、HBA 卡 、 光 纤 交 换 机 、 光 纤 网 关 、 光 纤 连 
接 等 。 
(2) 存储 设备 管理 
@ 性 能 管理 。SAN 存储 系统 的 性 能 管理 主要 包括 磁盘 存储 服务 器 的 性 能 和 SAN 网 
络 性 能 。 存 储 网 络 性 能 监控 的 主要 内 容 包 括 : 
。 1/O 请 求 的 数量 ; 
。 确认 每 天 最 忙 的 时 间 ; 
。 传输 的 数据 量 ; 
。 物理 I/O 的 读 写 响应 时 间 ; 
。 确认 最 忙 的 阵列 、 适 配 卡 和 服务 器 ; 
。 Cache 使 用 的 统计 数据 ; 
。 在 现 有 主机 工具 提供 增加 的 信息 。 
@ 磁盘 访问 权限 控制 。 在 SAN 存储 网 络 中 ,对 于 不 同 的 磁盘 系统 的 访问 控制 ,需要 相 
应 的 硬件 分 配 软件 ,包括 : 
。 每 一 个 服务 器 的 存储 容量 (已 用 的 和 未 用 的 ); 
。 存储 服务 器 的 存储 随时 间 增 长 的 图 表 ; 
。 总 结 主机 及 其 在 存储 服务 器 上 的 存储 ; 
。 多 台 主 机 共享 的 容量 细节 。 
(3) 存储 资源 管理 
开放 性 、 标 准 化 及 弹性 化 的 架构 ; 
@ 单一 界面 的 跨 平台 分 析 ; 
@ 存储 容量 规划 ; 
四 档案 层次 分 析 ; 
@ 自动 化 事件 关联 ; 
@ 符合 客户 需求 的 报表 ; 
@ 资料 库 分 析 ; 
可 用 度 报告 。 
(4) 存储 系统 故障 管理 
存储 系统 的 故障 总 是 与 整个 IT 系统 的 其 他 部 分 互相 关联 、 相 辅 相 成 的 。 所 以 我 们 不 
能 只 从 存储 的 单一 系统 来 处 理 问 题 , 需 要 将 存储 管理 和 系统 管理 统一 起 来 处 理 问题 分析 问 
题 ,评估 服务 水 平分 析 故 障 对 于 业务 的 影响 。 存储 系 统管 理 通 过 统一 的 事件 处 理 平台 , 实 
现 对 故障 的 统一 分 析 处 理 、 事 件 关 联 和 根源 分 析 。 
3. 网 络 系统 监控 
通过 IBM Tivoli NetView 网 管 软件 的 轮 询 或 请 求 /应 答 方式 对 政务 资源 中 心 的 网 络 设 
备 进行 监控 ,网 上 IP 资源 会 在 需要 的 时 候 发 出 相应 的 报告 ,IBM Tivoli NetView 可 以 持续 
不 间断 地 对 网 上 IP 资源 的 状态 .配置 和 事件 进行 监控 ,甚至 连 一 个 参数 的 改变 NetView 都 
可 以 收 到 报告 。 
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通过 SNMP 的 AGENT, 网 络 管理 人 员 可 以 监控 到 许多 网 络 设备 性 能 的 参数 ,如 网 络 
路 由 器 的 数据 传输 量 、 坏 包 的 数量 等 影响 网 络 效率 和 质量 的 参数 ,从 而 为 诊断 系统 故障 提供 
有 力 的 工具 。 

在 IBM Tivoli NetView 中 可 以 对 某 些 监控 的 对 象 , 如 路 由 器 端口 的 网 络 流量 等 ,设置 
闽 值 。 当 一 旦 达到 所 设 定 的 阔 值 时 ,NetView 会 报警 .自动 执行 相应 的 处 理 等 。 如 可 以 监 
控 网 络 通信 线 上 的 数据 通信 量 及 重要 的 文件 服务 器 上 的 硬盘 空间 利用 率 , 当 利 用 率 达 80% 
时 可 自动 向 网 管 中 心 发 出 报警 信息 ,使 系统 管理 员 及 时 采取 措施 避免 网 络 故障 ,减少 网 络 重 
大 故障 的 发 生 概率 。 

4. 数据 库 系 统 监 控 

通过 ITM for Database 可 以 实现 对 Informix、DB2、SQL Server、Oracle 等 多 种 数据 库 
的 监控 。 

(1) DB2 数据 库 的 监控 

ITM for DB (Oracle) 提供 了 以 下 预先 定义 的 监控 项 目 , 按照 属 性 相关 性 分 为 
Application Buffer Pool Data Database、Locking Conflict、System Overview 和 Tablespace 
共 6 个 属性 组 ,每 个 属性 组 包含 一 个 或 多 个 预先 定义 的 属性 ( 即 监控 项 目 ) ,用 户 可 以 直接 使 
用 ,也 可 以 更 改 或 者 新 建 。 

(2) 对 MS SQL Server 的 监控 

MS-SQL 提供 了 以 下 预先 定义 的 监控 项 目 : Database 信息 、. Device 信息、 进程 信息 、 锁 
信息 ,状态 信息 .Server 信息 等 。 

(3) 对 Oracle 的 监控 

Oracle 提供 了 诸如 高 级 消息 队列 .告警 日 志 详细 及 汇总 .缓存 使 用 信息 监控 ,配置 信 
息 、 锁 争夺 信息 ,数据库 .文件 等 预先 定义 的 监控 信息 。 

5. 中 间 件 系统 监控 

对 于 中 间 件 系统 监控 ,可 通过 IBM 复合 应 用 管理 系统 IBM Tivoli Composite 
Application Management(ITCAM) 来 实现 ,ITCAM 应 用 监控 管理 软件 对 应 用 系统 实时 监 
控 , 分 析 运 行 效率 ,提供 灾难 预警 ,准确 定位 错误 ,提供 有 效 维护 的 建议 ,在 很 少 占用 系统 资 
源 模式 下 可 以 长 期 以 7x24 方式 运行 ,可 以 产 出 包含 多 种 图 、 表 和 文字 等 实时 性 、 历 史 周 期 
性 前瞻 预期 性 的 报告 ,并 支持 打印 和 归档 。ITCAM 应 用 监控 管理 软件 本 身 应 易于 安装 、 
维护 和 使 用 ,并 且 功 能 强大 。 能 够 通过 较 低 的 系统 资源 占用 收集 数据 库 运 行 状态 的 实时 数 
据 ,其 采样 频率 可 以 由 系统 动态 调节 ,也 可 以 由 用 户 自 定义 ,适宜 7X24 的 方式 运行 。 收 集 
的 信息 要 全 面 和 丰富 ,不 仅 有 实时 信息 ,也 能 方便 地 存储 和 分 析 历 史 信 息 。 

通过 ITCAM 产品 能 够 监控 MQ、TongWeb/Q、CISC、WebSphere、Tomcat、WebLogic、 
IIS 的 运行 状况 和 日 志文 件 的 变化 情况 ; 提供 应 用 服务 器 日 志 监 控 , 包 括 Message ID、 
Message 内 容 、 进 程 号 .严重 级 别 、 发 生 时 间 Job 名 称 和 ASID 等 信息 ;提供 Log Analysis 分 
析 试 图 ,提供 详尽 的 日 志 分 析 报 表 , 系 统 地 监控 应 用 服务 器 和 应 用 程序 的 Log; 同 时 提供 对 
基于 WebSphere、Weblogic、Tomcat 的 应 用 服务 器 进行 实时 监控 和 历史 数据 分 析 , 它 能 够 
发 现 并 且 报 告 J]2EE 应 用 的 效果 ,获取 中 间 件 的 重要 性 能 指标 。 它 的 监控 贯穿 整个 应 用 流 
程 , 如 应 用 程序 服务 器 .中 间 件 适配器 、 传 输 协 议 、 数 据 库 等 。 对 于 WebSphere、 Weblogic、 
Tomcat 中 间 件 的 性 能 监控 ,提供 系统 级 别 的 数据 ,例如 ,应 用 服务 器 的 状态 .中 央 处 理 器 的 
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使 用 、 内 存 的 使 用 、 数 据 库 连 接 池 、JVM 线程 池 、EJB 的 使 用 等 ,也 会 被 收集 ,用 来 辅助 用 户 
去 分 析 问 题 .解决 问题 。 


9.1.5 统一 事件 管理 平台 建设 


针对 政务 中 心 的 资源 情况 ,采用 IBM Tivoli Enterprise Console(TEC) 统 一 事件 管理 平 
台 实 现 统一 事件 管理 。 

1. 事件 采集 

TEC 能 够 支持 多 种 的 事件 采集 方式 ,提供 多 种 的 事件 适配器 能 够 支持 对 SNMP 事件 、 
主机 系统 日 志 事件 (syslog) 、 第 三 方 可 集成 产品 (如 HP NNM、Vertias) 管 理事 件 的 集成 。 
TEC 提供 了 事件 发 送 方 式 ,可 以 非常 容易 地 将 其 应 用 事件 、 非 标准 事件 传送 到 TEC 中 。 
TEC 提供 了 多 种 抗 事 件 风 暴 的 能 力 ,通过 内 存 缓 存 、 硬 盘 缓 存 来 建立 事件 缓存 队列 ,从 而 防 
止 管 理事 件 的 丢失 。 

2. 事件 分 析 

TEC 独 有 的 基于 规则 的 分 析 引 擎 具有 多 重 的 事件 关联 分 析 能 力 , 能 够 按照 时 间 、 事 件 
属性 、 事 件 类 别 、 来 源 进行 跨 资 源 的 分 析 , 帮助 进行 问题 事件 的 查找 。TEC 新 的 ITS 
(Integrated TCP/IP Service) 部 件 是 一 套 将 网 络 和 主机 事件 进行 集中 关联 分 析 的 规则 ,加 载 
了 ITS 规则 库 后 ,TEC 能 够 自动 分 辨 是 网 络 还 是 主机 故障 造成 无 法 提供 有 效 的 服务 ,从 而 
缩小 了 故障 定位 的 范围 。 

TEC 特有 的 分 布 处 理 部 件 (AIM) ,能 够 对 区 域 事件 进行 规则 处 理 ,而 所 有 的 规则 都 来 
自 于 中 心 的 TEC 系统 。 通 过 AIM 部 件 的 分 布 处 理 , 可 以 形成 多 级 事件 处 理 机 制 , 得 以 减轻 
中 心事 件 服务 器 的 压力 ,从 而 可 以 支持 更 大 的 规模 和 更 为 复杂 的 关联 规则 。 

3. 事件 处 理 

TEC 的 事件 处 理 机 制 可 以 根据 多 种 条 件 触发 不 同 的 处 理 方法 ,包括 告警 方式 、 自 动 脚 
本 调用 方式 等 。 运 行 管理 人 员 可 以 在 TEC 的 事件 管理 窗口 进行 事件 的 交互 式 处 理 , 从 而 可 
以 通过 手工 方式 对 特定 事件 进行 处 理 。TEC 支持 将 事件 送 到 故障 管理 流程 平台 中 ,包括 
BMC Remedy、 基 于 Domino 的 故障 管理 系统 等 。 

4. 事件 查看 

运行 管理 人 员 可 以 分 成 不 同 的 组 ,每 个 组 可 以 查看 、 处 理 不 同类 型 的 事件 ,从 而 进行 分 
区 域 管理 。 运 行 管理 人 员 可 以 使 用 TEC 的 Java Console 实现 从 远程 来 访问 TEC 服务 器 ， 
从 而 实现 方便 的 管理 。 


9.1.6 报表 管理 系统 


报表 系统 对 于 大 数据 量 的 处 理 , 数 据 的 准确 性 等 方面 均 有 优异 性 能 .后 台 的 数据 库 一 个 

地 点 一 套 , 保 障 数据 的 可 靠 性 与 及 时 性 ,为 不 同 层面 的 人 员 设 计 不 同 的 报表 ,并 推荐 报表 上 

报 制度 ,对 领导 决策 提供 依据 ;对 于 系统 故障 、 性 能 数据 都 会 存储 在 后 人 台 的 数据 库 中 ,通过 报 

表 系 统 的 统计 分 析 人 处理。 管理 员 可 对 故障 、 性 能 管理 数据 库 中 存储 的 历史 记录 进行 访问 , 生 
成 分 析 报 告 。 
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9.1.7 运 维 服 务 管理 平台 建设 


GDS 的 数据 中 心 统 一 采用 BMC Remedy 流程 引擎 作为 数据 中 心 运 维 流 程 管理 平台 ， 
为 提高 政务 中 心 的 服务 质量 和 服务 水 平 ,GDS 将 Remedy 平台 延伸 到 政务 中 心 ,不仅 可 解 
决 GDS 工程 师 的 运 维 问题 ,而 且 还 可 汇集 GDS 其 他 数据 中 心 和 后 台 专 家 共同 解决 问题 , 实 
现 政务 资源 中 心 的 多 级 运 维 模式 。 

BMC Remedy IT Service Management 是 第 一 个 经 Pink Elephant 的 Pink Verify 和 
OGC 认证 程序 认证 且 符 合 ITIL 兼容 性 功能 要 求 的 整体 解决 方案 。 

该 方案 提供 了 一 套 安装 即 用 的 集成 功能 ,包括 由 ITIL 所 指定 的 服务 台 功能 .事故 管理 
功能 .问题 管理 功能 .服务 请 求 管理 .变更 管理 以 及 配置 管理 等 功能 。 

基于 Remedy 的 解决 方案 提供 了 可 以 应 用 到 每 个 应 用 程序 中 且 与 ITIL 兼容 的 最 佳 实 
践 。 并 且 这 些 应 用 程序 可 以 根据 独特 的 服务 支持 流程 和 工作 流 进行 轻松 修改 ,以 便 更 好 地 
满足 ITSM 功能 需求 。 其 产品 架构 如 图 9-2 所 示 。 
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图 9-2 BMC ITSM 产品 架构 


本 项 目 应 用 管理 流程 包括 : 服务 台 、 事 件 管理 ,问题 管理 ,配置 管理 ,知识 库 管 理 、 服 务 
请 求 管 理 及 日 常任 务 等 ,这 些 流程 在 BMC Remedy 产品 架构 中 都 有 所 体现 ,如 图 9-2 所 示 
的 这 些 功能 模块 都 采用 了 ITIL 最 佳 实践 .并 基于 BMC Remedy 强大 的 工作 流 引擎 平台 
ARS 构建 而 成 。 在 业界 的 评测 中 BMC 是 第 一 个 通过 全 部 ITIL13 个 流程 的 产品 。 在 
BMC ARS ITIL 工作 流 引擎 平台 中 实现 个 性 化 的 IT 服务 管理 流程 。 针 对 政务 资源 中 心 
的 运 维 管理 流程 ,选用 以 服务 支持 核心 模块 为 主 、 其 他 支持 流程 为 辅 的 流程 框架 ,如 
表 9-3 所 示 。 














表 9-3 流程 框架 图 
本 次 项 目 流程 BMC Remedy 产品 实现 
事件 管理 (服务 台 ) .问题 管理 BMC Remedy Service Desk 
自 服务 与 服务 请 求 BMC Service Request Management 
变更 管理 ,发 布 管理 BMC Remedy Change Management 
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续 表 
本 次 项 目 流程 BMC Remedy 产品 实现 
知识 库 管理 BMC Remedy Knowledge Management 
配置 管理 BMC Remedy Asset Configuration Management 
日 常任 务 管 理 通过 BMC Remedy AR System 进行 定制 开发 来 实现 此 功能 
基础 平台 BMC Remedy AR System 








BMC Remedy IT Service Management 的 服务 台 与 事件 管理 流程 的 主要 功能 满足 ITIL 
的 标准 ,能 够 实现 尽快 解决 影响 应 用 系统 正常 运行 的 事件 ,保持 业务 支撑 系统 的 稳定 性 。 问 
题 管理 流程 的 主要 功能 也 满足 ITIL 的 标准 ,能 够 实现 问题 管理 流程 的 根本 目标 。 即 根本 
目标 是 消除 或 减少 生产 环境 中 事件 发 生 的 数量 和 严重 程度 ,从 而 为 企业 建立 一 个 稳定 的 IT 
环境 ,提高 IT 服务 的 可 用 性 。 

BMC Remedy IT Service Management 的 自 服务 与 服务 请 求 功 能 模块 满足 ITIL 的 标 
准 ,能 够 实现 用 户 在 很 少 甚至 无 须 服务 台 干 预 的 情况 下 请 求 服务 和 查找 信息 ,从 而 减轻 运 维 
人 员 的 工作 压力 。 

BMC Remedy IT Service Management 的 变更 /发 布 管理 流程 功能 模块 满足 ITIL 的 标 
准 ,通过 一 系列 的 控制 措施 和 流程 ,确保 对 生产 环境 风险 的 控制 ,提高 企业 资源 使 用 率 。 

BMC Remedy IT Service Management 的 配置 管理 主要 功能 满足 ITIL 的 标准 ,能 够 实 
现 配 置 管理 通过 对 各 配置 项 的 定义 管理 以 及 统计 分 析 来 提高 IT 环境 的 可 视 化 ,降低 IT 
成 本 .增加 投资 回报 ,并 确保 IT 环境 的 稳定 性 。 

BMC Remedy IT Service Management 的 知识 库 管理 流程 主要 功能 满足 ITIL 的 标准 ， 
能 够 实现 知识 库 的 管理 需求 。 可 以 通过 知识 库 管理 在 故障 自动 处 理 和 人 工 处 理 的 过 程 中 ， 
在 知识 库 中 得 到 相关 故障 维护 的 分 类 和 快速 定位 ,找到 匹配 的 处 理 案例 ,便于 处 理 人 进行 借 
鉴 ,进行 知识 的 总 结 与 归 类 并 应 用 知识 。 

BMC Remedy AR System 平台 具有 很 好 的 稳定 性 、 开 放 性 和 广泛 的 集成 性 ,易于 进行 
二 次 开发 。 在 ARS 平台 上 实现 作业 调度 以 及 日 常 检查 功能 .有 利于 规范 和 简化 光大 银行 的 
日 常 运 维 工作 ,提高 工作 效率 。 


9.1.8 应 急 机 构 与 职责 


1. 应 急 领 导 小 组 
应 急 领 导 小 组 是 市 局 信息 系统 应 急 管理 工作 的 领导 机 构 。 主 要 职责 如 下 。 
(1) 审批 信息 管理 部 门 的 申请 。 
(2) 在 网 络 与 信息 系统 安全 事件 发 生 时 ,组 建 应 急 指挥 部 ,指挥 ,协调 信息 系统 安全 事 
件 应 急 工 作 。 
(3) 指导 基层 单位 网 络 与 信息 系统 安全 事件 的 应 急 工作 。 
(4) 宣布 进入 和 解除 应 急 状 态 ,决定 实施 和 终止 网 络 与 信息 系统 安全 事件 应 急 预 案 。 
(5) 统一 领导 工 级 和 开 级 网 络 与 信息 系统 安全 事件 的 应 急 处 置 工作 。 
(6) 研究 决定 对 外 有 关 网 络 与 信息 系统 安全 事件 的 新 闻 发 布 。 
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2. 信息 管理 部 门 

信息 管理 部 门 是 网 络 与 信息 系统 安全 事件 的 保障 管理 部 门 。 主 要 职责 如 下 。 

(1) 负责 应 急 物资 储备 、 预 案 演练 .培训 计划 申请 。 

(2) 落实 应 急 领导 小 组 部 署 的 各 项 任务 ,并 向 应 急 领 导 小 组 报告 应 急 处 置 中 发 现 的 
问题 。 

(3) 监督 执行 应 急 领导 小 组 下 达 的 应 急 指令 、 重 大 应 急 决 策 和 部 署 ,协调 各 方 应 急 资 
源 , 组 织 应 急 处 置 。 

(4) 按 相关 规定 参与 .配合 网 络 与 信息 系统 安全 事件 调查 ,总 结 应 急 处 理 经 验 和 教训 。 

3. 应 急 工 作 组 

信息 管理 部 门 根据 事件 类 型 和 应 急 处 置 的 实际 需要 ,组 织 内 部 和 外 部 人 员 建 立 网 络 与 
信息 系统 安全 应 急事 件 故 障 处 置 及 技术 支持 工作 组 。 具 体 职责 为 : 

(1) 执行 信息 管理 部 门下 达 的 应 急 处 置 工作 和 保障 任务 ; 

(2) 执行 应 急 处 理 、 控 制 事 件 范围 .进行 事件 恢复 ; 

(3) 提供 技术 支援 .协助 事件 调查 。 

4. 数据 恢复 组 

数据 恢复 组 由 成 都 政务 数据 资源 中 心 技术 人 员 组 成 。 数 据 恢复 组 的 主要 负责 如 下 。 

(1) 突 发 事件 发 生 时 

@ 负责 接受 和 确认 灾 备 中 心 数据 恢复 准备 和 数据 恢复 请 求 通知 ,并 按 通知 的 要 求 或 预 
先 设 定 的 检查 程序 完成 数据 存储 与 备份 系统 状态 检查 等 数据 恢复 的 准备 工作 。 

@ 负责 实施 灾 备 端 备份 数据 恢复 至 生产 端 指定 区 域 。 

@ 在 数据 恢复 过 程 中 协助 应 急 工作 组 其 他 团队 完成 恢复 工作 。 

(2) 日 常 相 关 工 作 

O@ 负责 日 常 基础 运营 服务 。 

@ 负责 日 常 存储 资源 管理 ,对 存储 灾 备 系统 的 存储 资源 进行 监控 ,管理 。 

@ 负责 根据 成 都 市 工商 局 的 需求 ,完成 存储 资源 的 分 配 与 回收 。 

@ 负责 数据 一 致 性 验证 和 可 用 性 验证 。 

加 负责 (数据 恢复 预案 ) 的 维护 和 更 新 。 


9.1.9 突 发 事件 分 级 


1. 事件 分 级 说 明 

根据 网 络 与 信息 安全 事件 对 服务 的 社会 用 户 和 内 部 用 户 的 影响 范围 程度 、 可 能 产生 的 
后 果 和 损失 等 因素 ,将 信息 系统 事件 分 为 下 级 .下 级 和 工 级 三 个 等 级 。 

发 生 下 级 事件 进入 信息 系统 预警 状态 ,发 生 开 级 信息 系统 事件 进入 信息 系统 开 级 应 急 
状态 ,发 生 工 级 信息 系统 事件 进入 工 级 应 急 状 态 。 

各 基层 单位 应 参照 市 局 网 络 与 信息 系统 安全 事件 分 级 标准 ,结合 本 单位 的 实际 情况 , 制 
定 相应 预警 状态 和 应 急 状 态 标准 。 但 各 单位 分 级 标准 不 能 高 于 市 局 同 级 标准 。 

2. 下 级 信息 系统 事件 

(1) 对 市 局 及 所 属 各 单位 , 因 下 列 原因 对 所 服务 社会 用 户 的 生产 、 生 活 造成 影响 ,影响 
用 户 数量 超过 本 单位 服务 总 用 户 数量 的 20% , 低 于 50%。 
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QO@ 通道 与 网 络 故障 。 

@ 主机 设备 .操作 系统 .中 间 件 和 数据 库 软件 故障 。 

@ 应 用 停止 服务 故障 。 

@ 应 用 系统 数据 丢失 。 

@ 机 房 电 源 、 空 调 等 环境 故障 。 

@ 大 面积 病毒 爆发 .蠕虫 .木马 程序 有 害 移动 代码 等 。 

@ 非法 入 侵 , 或 有 组 织 的 攻击 。 

@ 自然 灾害 或 人 为 外 力 破 坏 。 

@ 其 他 原因 。 

(2) 对 市 局 及 所 属 各 单位 , 因 下 列 原因 对 本 单位 的 生产 、 经 营 、 管 理 和 信息 发 布 造成 影 
响 ,影响 内 部 用 户 数 超过 20% , 低 于 50%。 

@ 通道 与 网 络 故障 。 

@ 主机 设备 .操作 系统 .中 间 件 和 数据 库 软件 故障 。 

@ 应 用 停止 服务 故障 。 

@ 应 用 系统 数据 丢失 。 

@ 机 房 电 源 、 空 调 等 环境 故障 。 

@ 大 面积 病毒 爆发 .蠕虫 .木马 程序 有 害 移动 代码 等 。 

@ 非法 入 侵 , 或 有 组 织 的 攻击 。 

@ 自然 灾害 或 人 为 外 力 破坏 。 

@ 信息 发 布 和 服务 网 站 遭受 攻击 和 破坏 。 

@ 其 他 原因 。 

(3) 市 局 及 所 属 各 单位 出 现 大 面积 的 有 害 信 息 传播 ,影响 范围 大 ,影响 各 单位 内 用 户 数 
超过 30%, 低 于 50%。 

3. 开 级 信息 系统 事件 

(1) 对 市 局 及 所 属 各 单位 , 因 下 列 原因 对 所 服务 社会 用 户 的 生产 、 生 活 造成 严重 影响 ， 
影响 用 户 数量 超过 本 单位 服务 总 用 户 数量 的 50% , 低 于 90%。 

中 通道 与 网 络 故 障 。 

@ 主机 设备 ,操作 系统 、 中 间 件 和 数据 库 软 件 故 障 。 

@ 应 用 停止 服务 故障 。 

@ 应 用 系统 数据 丢失 。 

@ 机 房 电 源 、 空 调 等 环境 故障 。 

@ 大 面积 病毒 爆发 .蠕虫 .木马 程序 有 害 移动 代码 等 。 

@ 非法 入 侵 ,或 有 组 织 的 攻击 。 

自然 灾害 或 人 为 外 力 破坏 。 

@ 其 他 原因 。 

(2) 对 市 局 及 所 属 各 单位 , 因 下 列 原 因 对 本 单位 的 生产 、 经 营 、 管 理 和 信息 发 布 造成 严 
重 影响 ,影响 内 部 用 户 数 超过 50%% , 低 于 90%。 

@ 通道 与 网 络 故障 。 

@ 主机 设备 .操作 系统 .中 间 件 和 数据 库 软件 故障 。 
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@ 应 用 停止 服务 故障 。 

@ 应 用 系统 数据 丢失 。 

名 机 房 电 源 、 空 调 等 环境 故障 。 

@ 大 面积 病毒 爆发 .蠕虫 .木马 程序 有 害 移动 代码 等 。 

@ 非法 入 侵 , 或 有 组 织 的 攻击 。 

自然 灾害 或 人 为 外 力 破坏 。 

@ 信息 发 布 和 服务 网 站 遭受 攻击 和 破坏 。 

@ 其 他 原因 。 

(3) 市 局 及 所 属 各 单位 出 现 大 面积 的 有 害 信息 传播 ,影响 范围 大 ,性 质 恶 劣 ,影响 各 单 
位 内 部 用 户 数 超过 50%, 低 于 90%。 

(4) 涉及 国家 或 单位 利益 的 秘密 信息 通过 信息 系统 泄露 ,造成 重大 影响 。 

4. 工 级 信息 系统 事件 

(1) 对 市 局 及 所 属 各 单位 , 因 下 列 原因 对 所 服务 社会 用 户 的 生产 、 生 活 造成 特别 严重 影 
响 , 影 响 社会 用 户 数量 超过 本 单位 服务 总 用 户 数量 的 90% 。 

Q@ 通道 与 网 络 故障 。 

加 主机 设备 .操作 系统 ,中间 件 和 数据 库 软件 故障 。 

@ 应 用 停止 服务 故障 。 

@ 应 用 系统 数据 丢失 。 

@@ 机 房 电源 、 空 调 等 环境 故障 。 

@ 大 面积 病毒 爆发 .蠕虫 .木马 程序 有 害 移 动 代码 等 。 

@ 非法 入侵, 或 有 组 织 的 攻击 。 

自然 灾害 或 人 为 外 力 破坏 。 

@ 其 他 原因 。 

(2) 对 市 局 及 所 属 各 单位 , 因 下 列 原 因 对 本 单位 的 生产 、 经 营 、 管 理 和 信息 发 布 造 成 特 
别 严重 的 影响 ,影响 内 部 用 户 数 超过 90%% 。 

Q@ 通道 与 网 络 故 障 。 

@ 主机 设备 ,操作 系统 、 中 间 件 和 数据 库 软 件 故 障 。 

@ 应 用 停止 服务 故障 。 

@ 应 用 系统 数据 丢失 。 

@ 机 房 电 源 、 空 调 等 环境 故障 。 

@ 大 面积 病毒 爆发 .蠕虫 .木马 程序 有害 移动 代码 等 。 

@ 非法 入 侵 ,或 有 组 织 的 攻击 。 

自然 灾害 或 人 为 外 力 破坏 。 

@@ 信息 发 布 和 服务 网 站 遭受 攻击 和 破坏 。 

@ 其 他 原因 。 

(3) 市 局 及 所 属 各 单位 出 现 大 面积 的 有 害 信息 传播 ,影响 范围 大 ,性 质 恶 劣 ,影响 本 单 
位 内 部 用 户 数 超过 90%。 

(4) 涉及 国家 或 单位 利益 的 机 密 信息 泄露 ,造成 特别 重大 影响 。 
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5. 突 发 事件 升降 级 说 明 

突 发 事件 的 处 理 是 一 个 发 展 变化 的 过 程 ,每 隔 一 段 时 间 对 事件 的 影响 程度 和 范围 进行 
重新 评估 ,按照 上 述 事件 分 级 的 定义 重新 判定 事件 级 别 。 

突 发 事件 的 升级 策略 如 图 9-3 所 示 。 
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图 9-3 突 发 事件 的 升级 策略 图 


9.1.10 应 急 响应 


1. 应 急 启动 

发 生 网 络 与 信息 系统 安全 事件 后 ,事件 发 生 单位 应 立即 启动 应 急 预 案 , 本 着 尽量 减少 损 
失 的 原则 ,将 应 急事 件 尽 快 隔离 ,在 不 影响 正常 生产 ,经 营 ,管理 秩序 的 情况 下 ,保护 现场 。 

信息 管理 部 门 接 到 各 单位 网 络 与 信息 系统 安全 事件 的 应 急 报 告 后 ,根据 事件 情况 ,启动 
信息 系统 安全 应 急 预 案 。 

信息 管理 部 门 接 到 工 级 和 下级 事件 报告 后 ,根据 事件 的 性 质 和 影响 向 应 急 领导 小 组 


2. 事件 报告 
发 生 网 络 与 信息 系统 安全 事件 时 ,由 各 级 信息 管理 部 门 逐 级 报告 。 
报告 分 为 紧急 报告 和 详细 汇报 。 紧 急 报 告 是 指 事件 发 生 后 ,各 级 信息 管理 部 门 向 上 级 
信息 管理 部 门 以 口头 和 应 急 报 告 表 的 形式 汇报 事件 的 简要 情况 ;详细 汇报 是 指 由 相应 单位 
信息 系统 应 急 处 理 机 构 在 事件 处 理 暂 告 一 段落 后 ,以 书面 形式 提交 的 详细 报告 。 

各 单位 信息 管理 部 门 对 各 类 事件 的 影响 进行 初步 判断 ,有 可 能 是 I 级 事件 的 , 须 在 
30 分 钟 内 向 市 局 信息 管理 部 门 进行 紧急 报告 , 开 级 事件 应 在 60 分 钟 内 进行 报告 ,加 级 事件 
在 3 小 时 内 汇报 。 
发 生 下 列 情况 引起 管理 信息 系统 事件 时 ,各 单位 须 向 市 局 信息 管理 部 门 报告 。 
(1) 大 面积 病毒 爆发 , 且 快 速 扩散 事件 。 
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(2) 对 主要 网 站 ,应 用 系统 和 关键 设备 等 的 大 规模 攻击 和 非法 入 侵 , 攻 击 数 据 包 源 IP 
地 址 不 明 或 为 内 部 IP 地 址 。 

(3) 有 害 信 息 通 过 电子 邮件 等 方式 在 内 部 网 络 上 大 面积 传播 。 

(4) 信息 网 络 上 传播 不 符合 国家 和 单位 保密 要 求 的 国家 和 单位 涉 密 信息 事件 。 

(5) 其 他 从 一 个 单位 发 生 且 能 够 影响 其 他 单位 和 整个 成 都 市 工商 信息 系统 事件 。 

任何 单位 和 个 人 均 不 得 组 报 、 瞒 报 .谎报 或 者 授意 他 人 组 报 、 眶 报 .谎报 事件 。 

事件 报告 的 内 容 和 格式 要 求 如 下 。 

(1) 各 单位 要 规范 口头 报告 的 内 容 和 格式 ,要 求 内 容 简洁 、 清 楚 、 准 确 。 

(2) 口头 报告 的 内 容 主 要 包括 事件 发 生 的 时 间 概况 .可 能 造成 的 影响 等 情况 。 

(3) 口头 报告 后 应 用 传真 方式 报 送 市 局 信息 管理 部 门 。 

3. 应 急 处 置 

网 络 与 信息 系统 安全 事件 应 急 处 置 应 按照 各 专业 协同 处 理 的 原则 进行 ,需要 内 部 多 个 
部 门 和 专业 协同 处 置 或 外 部 应 急 资源 支持 的 应 急事 件 , 由 信息 管理 部 门 负责 统一 协调 。 

信息 管理 部 门 以 保障 重要 应 用 系统 和 信息 网 络 及 基础 应 用 的 安全 稳定 运行 为 目标 。 当 
发 生病 毒 .非法 入 侵 、 网 络 攻击 有害 信息 传播 、 不 符合 规定 的 涉 密 信息 传播 等 事件 时 ,迅速 
调整 网 络 安全 设备 的 安全 策略 或 隔离 事件 区 域 ,查找 源头 ,采取 有 效 措施 ,控制 事件 的 发 展 。 
当 管 理 信息 系统 出 现 软 硬 件 设备 故障 、 网 络 链 路 故障 、 机 房 环 境 设备 故障 等 事件 时 ,应 立即 
启用 备份 系统 和 备用 设备 ,调整 系统 运行 和 安全 策略 ,恢复 系统 正常 运行 。 

发 生 焉 级 信息 系统 事件 后 ,事件 相关 单位 应 立即 启动 相关 应 急 预 案 和 专项 应 急 预 案 , 根 
据 事件 原因 采取 相应 措施 控制 影响 范围 ,同时 向 市 局 信息 管理 部 门 报告 ,市 局 信息 管理 部 门 
通知 相关 单位 .部 门 和 工作 组 启动 应 急 准 备 工作 。 

信息 系统 事件 由 亚 级 发 展 为 下级 或 发 生 开 级 事件 后 ,事件 相关 单位 应 立即 启动 相关 应 
急 预 案 和 专项 应 急 预 案 , 开 展 应 急 处 理 。 市 局 信息 管理 部 门 接 到 应 急 报告 后 ,根据 事件 产生 
的 原因 协调 相关 资源 ,支持 事件 相关 单位 应 及 时 .有效 地 进行 处 理 ,控制 事件 发 展 , 同 时 上 报 
市 局 应 急 领导 小 组 ,市 局 应 急 领 导 小 组 协调 其 他 应 急 资源 支持 应 急 处 理 。 

事件 由 开 级 发 展 为 I 级 或 发 生 工 级 事件 后 ,事件 相关 单位 应 立即 启动 相关 应 急 预 案 
和 专项 应 急 预 案 。 市 局 信息 管理 部 门 接 到 应 急 报告 后 .根据 事件 产生 的 原因 协调 相关 资 
源 , 组 织 有 关 各 方 对 事件 进行 及 时 、 有 效 的 处 理 , 控 制 事 态 发 展 ,同时 上 报 市 局 应 急 领导 
小 组 。 

当 出 现 自然 灾害 .恐怖 袭击 .战争 .人 为 非法 破坏 等 重大 事件 时 ,以 及 发 生 大 规模 的 计算 
机 病毒 爆发 .网 络 攻击 、 内 部 人 员 重 大 作案 等 重大 网 络 与 信息 系统 安全 事件 时 ,由 于 重大 技 
术 故 障 导 致 信息 网 络 与 重要 信息 系统 无 法 正常 运行 事件 ,无 法 迅速 恢复 正常 生产 ,经 营 和 管 
理工 作 时 ,由 市 局 应 急 领 导 小 组 上 报 上 级 安全 应 急 办 公 室 ,请 求 上 级 单位 、 公 安 部 和 信息 产 
业 部 的 应 急 支 持 。 

4. 应 急 结束 

在 同时 满足 下 列 条 件 下 ,事件 相关 单位 应 急 领 导 小 组 或 信息 管理 部 门 可 决定 宣布 解除 
应 急 状 态 。 

(1) 各 种 网 络 与 信息 系统 安全 事件 已 得 到 有 效 控制 ,情况 趋 缓 。 

(2) 网 络 与 信息 系统 安全 事件 处 理 已 经 结束 ,设备 .系统 已 经 恢复 运行 。 
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(3) 上 级 应 急 部 门 发 布 的 解除 应 急 响应 状态 的 指令 。 

事件 相关 单位 应 急 部 门 应 及 时 向 现场 应 急 工作 组 和 参与 应 急 支援 的 有 关 单 位 传达 解除 
应 急 状 态 响应 的 指令 ,恢复 正常 生产 工作 秩序 。 

5. 后 期 处 置 

(1) 后 期 观察 

工 级 网 络 与 信息 系统 安全 事件 应 急 处 理 结束 后 应 密切 关注 ,监测 系统 2 周 ,确认 无 异常 
现象 。 

开 级 网 络 与 信息 系统 安全 事件 应 急 处 理 结束 后 应 密切 关注 ,监测 系统 1 周 ,确认 无 异常 
现象 。 

亚 级 网 络 与 信息 系统 安全 事件 应 急 处 理 结束 后 应 密切 关注 ,监测 系统 2 天 ,确认 无 异常 
现象 。 

(2) 调查 评估 

网 络 与 信息 系统 安全 事件 应 急 处 理 结束 后 ,影响 到 公众 利益 和 国家 安全 的 事件 ,按照 国 
家 相关 部 门 的 要 求 配合 进行 事件 调查 。 

对 按照 市 局 相关 规定 要 求 需要 市 局 成 立 调查 组 的 事件 ,由 市 局 组 织 成 立 调查 组 ,对 事件 
产生 的 原因 ,影响 进行 调查 和 评估 ,对 责任 进行 认定 ,提出 整改 建议 。 

按照 市 局 相关 规定 由 各 单位 自行 组 织 调查 的 ,各 单位 对 事件 产生 的 原因 进行 调查 ,对 产 
生 的 影响 进行 评估 ,对 责任 进行 认定 ,提出 整改 措施 。 调 查 报告 按 市 局 规定 上 报 有 关 部 门 ， 
同时 报 送 市 局 信息 管理 部 门 。 

(3) 改进 措施 

网 络 与 信息 系统 安全 事件 处 理 结束 后 ,相关 单位 应 组 织 研 究 事件 发 生 的 原因 和 特点 、 分 
析 事 件 发 展 过 程 ,总 结 应 急 处 理 过 程 中 的 经 验 和 教训 ,进行 应 急 处 置 知识 积累 ,进一步 补充 、 
完善 和 修订 相关 应 急 预 案 。 相 关 单位 应 结合 运行 过 程 中 的 异常 和 相关 事件 ,综合 分 析 信息 
系统 中 存在 的 关键 点 和 薄弱 点 ,提出 该 类 事件 的 整改 措施 ,制订 整改 实施 方案 并 也 以 落实 ， 
整改 措施 和 方案 报信 息 管理 部 门 备案 。 


9.2 运 维 制度 管理 


9.2.1 管理 制度 架构 


数据 中 心 已 经 依据 ISO27001、ISO9001、ISO20000 等 国际 和 行业 标准 以 及 最 佳 实践 的 
要 求 ,建立 了 一 套 制度 化 流程 化 ,标准 化 的 数据 中 心 运营 管理 体系 ,用 以 规范 数据 中 心 的 日 
常 工作 ,并 持续 稳定 运行 ,该 管理 体系 通过 了 专业 认证 并 在 长 期 的 实施 运行 中 不 断 的 持续 完 
善 ,其 框架 如 图 9-4 和 表 9-4 所 示 。 
9.2.2 管理 制度 说 明 
灾难 备份 系统 日 常 运营 管理 的 好 坏 , 对 项 目的 成 功 与 否 起 着 至 关 重要 的 影响 。 灾 难 备 
份 系统 中 的 设备 平时 处 于 备 援 状 态 , 当 灾难 发 生 时 ,为 保证 其 能 接替 总 行 数据 中 心 的 运行 ， 
需要 灾难 备份 系统 具有 非常 高 的 可 用 性 和 可 靠 性 ;不 仅 如 此 , 当 数据 中 心 面 向 灾难 备份 系统 
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分 类 


管理 层面 











管理 规定 
工件 层面 


| 
技术 操作 手册 


工件 规程 











日 志 / 表 格 





监控 层面 





























月 报 /汇总 
图 9-4 运营 管理 体系 框架 


统计 /对 比 





表 9-4 运营 管理 体系 框架 说 明 
内 容 说 明 





管理 制度 总 纲 


这 是 一 个 纲领 性 文件 ,主要 明确 和 描述 备份 中 心 的 职责 、 工 作 目 标 、 主 要 原则 和 
工作 内 容 , 并 对 岗位 设置 和 岗位 职责 和 主要 的 管理 原则 进行 界定 





岗位 职责 描述 


针对 生产 中 心 的 工作 特点 ,对 所 需 完成 的 各 类 工作 确定 岗位 ,并 对 各 岗位 的 职 
责 、 工 作 内 容 、 工 作 规 范 和 管理 制度 进行 明确 和 描述 





工作 规程 和 管理 规定 


对 整个 生产 中 心 范围 的 工作 内 容 和 有 关 的 管理 规定 和 工作 规范 和 流程 进行 说 明 
和 明确 ,如 安全 管理 规定 ,系统 变更 管理 规定 .生产 故障 处 理 和 管理 规定 、 机 房 进 
入 管理 规定 等 各 方面 的 管理 规定 和 制度 





操作 手册 


对 具体 的 工作 过 程 和 操作 命令 序列 ,如 能 建立 技术 说 明和 操作 手册 均 应 尽 可 能 
建立 ,特别 是 日 常 经 常 需要 进行 的 操作 和 在 紧急 状态 下 的 操作 过 程 均 应 建立 操 
作 和 手册, 以 确保 有 关 操作 和 过 程 正确 无 误 、 稳 定 可 靠 





日 志 记录 


对 日 常 巡 检 监 控 、 设 备 系统 的 操作 维护 人员 设备 的 进出 等 建立 日 志 记录 表格 ， 
进行 提醒 、 记 录 和 检查 ,每 天 的 日 志 记录 表格 需要 操作 人 员 、 操 作 领 班 ,值班 经 理 
和 有 关 人 员 进 行 记录 、 检 查 和 复核 ,确保 每 天 的 工作 有 序 地 进行 和 可 追踪 





月 报 /统计 报表 





对 各 项 工作 需要 有 一 定形 式 的 月 报 等 统计 表格 ,如 每 月 基础 环境 运行 .设备 系统 
更 新 维护 情况 、 系 统 故障 统计 、 通 信 线 路 和 流量 统计 、 系 统 验证 等 多 项 内 容 , 要 对 
各 项 情况 及 时 的 分 析 和 汇总 ,并 适当 建立 与 前 期 的 对 比 表格 





的 IT 运行 环境 ,业务 处 理 流 程 、 操 作 规程 等 发 生变 化 时 ,要 求 在 灾 备 中 心 的 灾难 备份 系统 
上 及 时 响应 并 进行 同步 变更 和 处 理 ; 要 做 好 以 上 各 方面 工作 ,必须 在 总 行 数据 中 心 和 灾 备 中 
心 之 间 建 立 良好 的 互动 机 制 。 因 此 ,建立 一 套 与 之 相 适 应 的 运营 管理 制度 ,对 于 整个 灾难 备 
份 项 目 而 言 是 必 不 可 少 的 关键 工作 。 

以 基于 ITIL 的 完善 的 内 部 管理 制度 为 基础 ,数据 中 心 结合 客户 及 委 办 局 实际 情况 和 
灾 备 项 目 需 求 , 将 建立 的 与 之 相对 应 的 服务 管理 接口 制度 包括 的 内 容 如 表 9-5 所 示 。 
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表 9-5 管理 制度 





说 明 





日 常 操作 运行 管理 


建立 灾难 备份 系统 的 日 常 操作 规程 ,包括 : 
。 灾难 备份 系统 日 常 监控 操作 流程 

。 灾难 备份 系统 日 常 操作 手册 

， 日 常 维护 例 行 工作 流程 

。 运行 记录 及 工作 报表 





事件 管理 


建立 灾难 备份 系统 的 问题 管理 流程 ,包括 : 
。 事件 的 受理 和 记录 流程 

。 事件 定 级 及 知 会 流程 

*。 事件 追踪 及 升级 流程 

。 事件 处 理 结果 反馈 流程 

。 事件 的 通知 策略 

。 与 变更 ,问题 管理 的 接口 管理 





变更 管理 


建立 灾难 备份 系统 的 变更 管理 流程 ,包括 : 
。 灾难 备份 系统 基准 文档 维护 流程 

。 信息 系统 的 变更 知 会 流程 

。 信息 系统 变更 评估 确认 及 处 理 流程 

。 业务 连续 性 计划 变更 维护 流程 

。 与 事件 .问题 的 接口 管理 





问题 管理 


建立 灾难 备份 系统 的 问题 管理 流程 ,包括 : 
问题 的 受理 和 记录 流程 
问题 定 级 及 知 会 流程 
问题 的 处 理 流程 

问题 处 理 结果 反馈 流程 

与 事件 ,变更 的 接口 管理 





应 急 响应 及 恢复 管理 


建立 灾难 备份 系统 的 应 急 响应 管理 流程 ,包括 : 
。 紧急 响应 流程 
。 灾难 恢复 IT 及 工作 环境 检查 清单 





BCP 维护 管理 


建立 BCP 维护 管理 流程 ,包括 : 

。 IT 基准 维护 管理 流程 

。 子 系统 验证 管理 流程 

。 灾难 恢复 预案 的 分 发 .保存 及 版 本 及 更 新 管理 办 法 





安全 管理 





建立 灾难 备份 系统 安全 管理 规程 ,包括 : 
。 安全 管理 架构 

。 备份 中 心 物理 安全 管理 制度 

。 安全 保密 制度 

。 网 络 安全 管理 流程 

。 备份 系统 分 级 授权 机 制 

。 磁 介质 管理 制度 





9.2.3 运 维 服务 内 容 综述 


根据 项 目 目标 的 要 求 以 及 灾难 备份 系统 的 运行 特点 ,数据 中 心 将 提供 专业 的 运营 管理 
服务 ,确保 数据 中 心 长 期 有 效 的 稳定 运行 。 
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为 此 ,数据 中 心 提供 以 下 各 类 专业 服务 项 目 : 
串 基础 设施 保障 服务 ; 

@ 基准 验证 服务 ; 

@ 现场 值守 服务 ; 

图 事件 管理 服务 ; 

加 问题 管理 服务 ; 

变更 管理 服务 ; 

@ 安全 管理 服务 ; 

@ 客户 服务 管理 ; 

@ 后 勤 保 障 服务 ; 

外 运营 服务 质量 管理 ; 

@@ 服务 水 平 管理 ; 

加 演练 配合 服务 ; 

图 灾难 恢复 服务 ; 

@ 接替 生产 中 心 运行 服务 。 


9.2.4 基础 设施 保障 服务 


1. 基础 设施 保障 服务 经 理 

数据 中 心 公司 将 指定 专人 作为 本 项 目的 基础 设施 保障 服务 经 理 , 作 为 机 房 基 础 设施 资 
源 保障 、 维 护 及 相关 协调 的 负责 人 。 

2. 基础 设施 及 机 房 环 境 维护 

中 供 配 电 系统 : 数据 中 心 所 配备 的 宛 余 变压器 ,高 压 及 低压 配 电 系统 后备 柴油 发 
电机 、UPS 的 日 常 巡 检 与 维护 ,定期 巡 检 、 记 录 机 房 配 电 系 统 的 运行 情况 ,发 现 问题 及 时 
处 理 。 

@ 空调 系统 : 数据 中 心 会 定时 检查 机 房 的 环境 温 湿度 ,确保 机 房 始 终 处 于 符合 国家 A 
级 机 房 标准 的 恒温 , 恒 湿 、 新 风 状 态 ,监控 空调 系统 运行 情况 ,发现 问题 及 时 处 理 。 

@ 消防 系统 : 数据 中 心 将 每 月 巡 检 ,记录 消防 系统 的 运行 情况 ,每 年 组 织 进行 消防 培 
训 和 演练 。 

@ 报警 : 对 机 房 的 UPS 温度 ,电源 等 重要 环境 设施 进行 集中 监控 ,并 实现 及 时 报警 。 

@ 数据 中 心 公司 将 对 数据 中 心机 房 的 供 配 电 、 温 湿度 环境 、 漏 水 空调、 安全 等 重要 
设施 进行 7X24 小 时 集中 监控 ,并 实现 声 光 报警 。 每 季度 组 织 厂 商 对 环境 监控 系统 例 行 
维护 。 

数据 中 心 公司 将 对 提供 7X24 小 时 保安 巡视 ,每 月 对 门禁 系统 运行 情况 进行 检查 和 
维护 ， 

@ 数据 中 心 公司 将 对 数据 中 心机 房 的 漏水 检测 系统 每 月 进行 检查 测试 。 

@ 数据 中 心 公司 将 定期 检查 监控 系统 ,定期 对 监控 录像 系统 进行 维护 保养 。 

@ 数据 中 心 公司 将 提供 机 房 及 周边 环境 的 卫生 清洁 服务 。 

加 数据 中 心 公司 将 对 所 有 检查 维护 行为 做 详细 的 记录 。 
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3. 机 房 安 全 管理 

@ 数据 中 心 通过 门禁 系统 控制 对 机 房 的 访问 , 非 授 权 人 员 不 得 进入 。 

@ 数据 中 心 为 机 房 配 备 闭路 电视 监控 系统 、 门 禁 系 统 , 对 机 房 实 行 7X24 小 时 的 实时 
监控 。 
@ 对 机 房 实行 的 闭路 电视 监控 系统 门禁 系统 等 监控 记录 的 磁 介 质 妥 善 保 留 一 个 月 。 

@ 对 机 房 内 所 有 物品 实行 严格 的 事前 进出 审批 及 进出 登记 制度 ,对 记录 文档 妥善 保留 
一 年 。 

@@ 提供 进出 入 机 房 的 陪同 ,并 协助 满足 厂商 进行 服务 的 需求 。 

4. 现场 值守 服务 

(1) 现场 支持 经 理 

数据 中 心 公司 将 由 数据 中 心 运营 小 组 组 长 担任 值班 经 理 ,负责 安排 数据 中 心 公司 相关 
人 员 的 值班 . 巡 检 、 信 息 汇 总 等 ,并 及 时 与 客户 或 委 办 局 相关 负责 人 进行 沟通 。 

(2) 服务 内 容 描述 

数据 中 心 公司 将 提供 基础 设施 环境 监控 服务 ,包括 供电 系统 .空调 系统 、 消 防 系统 及 安 
保 系 统 等 。7X24 小 时 定期 巡 检 设备 状态 ,检查 设备 ,并 按 要 求 提供 巡 检 记录 报告 。 数 据 中 
心 公司 提 供 机 房 7X24 小 时 值班 服务 ,值班 服务 包括 机 房 定时 巡查 、 出 入 人 员 登 记 、 配 合 进 
行 故障 排查 ,简单 的 连接 与 断 开 、 介 质 取 放 、 杂 物 清理 等 服务 ,上 述 这 些 服 务 基 于 ITIL( 事 
件 ,问题 和 变更 的 标准 流程 执行 ) 。 

其 他 服务 内 容 如 下 。 

Q@ 按 运 行 操作 手册 提供 365 X24 小 时 系统 运行 操作 。 

@ 填写 交 班 记录 和 运行 日 志 。 

@ 制定 数据 中 心 环境 设备 监控 手册 , 并 按 手册 要 求 进行 设备 监控 , 填写 监控 报告 。 

@ 按 运 维 管理 流程 及 时 向 管理 系统 报告 问题 /异常 。 

5. 事件 管理 服务 

事件 管理 服务 的 目的 是 为 了 尽快 恢复 基础 设施 的 服务 ,或 响应 服务 要 求 。 事 件 管理 服 
务 要 求 记录 所 有 的 事件 ,并 建立 流程 来 管理 事件 的 影响 。 事 件 管理 流程 规定 了 所 有 事件 的 
记录 ,优先 排序 业务 影响 分类、 更 新 、 调 整 .解决 和 正式 关闭 .并 通知 客户 ,使 其 了 解 其 报告 
的 事件 或 服务 请 求 的 进展 情况 , 当 不 能 达到 约定 的 服务 等 级 或 无 法 完成 约定 的 措施 时 应 提 
前 警告 客户 。 

@ 根据 各 类 用 户 投 诉 记录 事件 : 相关 的 事件 描述 ,用户 信 息 等 。 

@ 建立 知识 库 , 对 事件 进行 初 判 并 试图 解决 事件 。 

@ 对 事件 进行 跟踪 ,并 能 及 时 通知 相关 人 员 尽 快 解决 事件 , 直到 事件 结束 。 

@ 对 未 按时 解决 的 事件 ,进入 事件 升级 流程 ,即将 事件 升级 并 上 报 上 级 主管 。 

@ 协调 相关 人 员 快 速 解决 事件 。 

@ 提供 事件 查询 及 事件 进程 查询 。 

@ 对 各 类 变更 及 事件 影响 程度 按 流 程 进行 通知 。 

评估 相关 人 员 解 决 事件 所 需 时 间 ,进行 绩效 考核 。 

@ 系统 能 够 对 相关 维护 人 员 进 行 每 月 的 统计 故障 解决 率 、 故 障 解决 及 时 率 。 

四 统计 每 月 、 每 年 的 事件 次 数 、 故 障 次 数 。 
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事件 管理 所 涉及 的 所 有 人 员 都 可 以 访问 相关 的 信息 ,如 已 知 错误 .事件 解决 方案 和 配置 
管理 数据 库 。 应 对 重大 事件 进行 分 类 并 根据 过 程 进 行 管理 。 

事件 管理 包括 确定 记录、 跟踪 和 纠正 项 目 实施 过 程 中 出 现 的 事件 ,并 制定 相应 的 解决 
方案 以 降低 或 预防 事件 的 重复 出 现 。 

一 般 地 ,事件 等 级 分 为 一 级 事件 .二 级 事件 .三 级 事件 .四 级 事件 。 

6. 事件 管理 上 报 

对 于 项 目 执行 阶段 ,数据 中 心 公司 和 客户 (或 委 办 局 ) 所 定义 的 一 、 二 级 事件 真正 发 生 
时 ,数据 中 心 公司 提供 如 下 上 报 管理 服务 使 客户 (或 委 办 局 ) 时 刻 了 解 事件 的 进展 和 解决 
情况 。 

严重 等 级 一 .二 级 的 事件 的 通知 策略 (将 根据 项 目 具体 调整 ) 如 表 9-6 和 表 9-7 所 示 。 


表 9-6 严重 等 级 一 、 二 级 的 事件 的 通知 策略 


严重 事件 负责 
等 级 | 灾 备 中 心 | 事件 负责 人 | 事件 管理 员 甲 方 项 目 经 理 人 一 客户 服务 
经 理 (PM) 





联系 灾 各 中 | 灾 备 中 心 立 | 灾 备 中 心 立即 | 灾 生 中心 发 送 SMS/T2meil 通知 | 突 备 中 心 发 送 


1 心 报告 事件 | 即 电话 通知 | 电话 通知 (小 于 15 分 钟 ) 和 客户 服务 经 | SMS/Email 通知 





理 电 话 通知 (小 于 30 分 钟 ) (小 于 15 分钟) 

联系 灾 备 中 | 灾 备 中 心 立 | 灾 备 中 心 立即 | 灾 备 中 心 发 送 SMS/Email 通 | 灾 备 中 心 发 送 

2 | 心 报告 事件 | 即 电话 通知 | 电话 通知 知 (小 于 25 分 钟 ) 和 客户 经 理 | SMS/Email 通知 
电话 通知 (小 于 30 分 钟 ) (小 于 15 分 钟 ) 





联系 灾 备 中 | 灾 备 中 心 立 
3 | 心 报告 事件 | 即 电话 通知 | 人 Sn A 


联系 灾 备 中 | 灾 备 中 心 立 
4 | 心 报告 事件 | 即 电话 通知 | NA We MA 




















表 9-7 严重 等 级 一 、 二 级 的 事件 的 通知 策略 

















基础 设施 (HVAC) 事 件 管理 

一 级 严重 级 别 事件 在 30 分 钟 内 做 出 响应 ,在 2 个 小 时 内 解决 
事件 二 级 严重 级 别 事件 在 60 分 钟 内 做 出 响应 ,在 4 个 小 时 内 解决 
管理 | 三 级 严重 级 别 事件 在 4 小 时 内 做 出 响应 ,在 48 个 小 时 内 解决 

四 级 严重 级 别 事件 在 24 小 时 内 做 出 响应 ,在 一 周 内 解决 

事件 情况 统计 和 记录 报告 人 服务 周期 开始 














9.2.5 变更 管理 服务 


变更 管理 服务 是 IT 服务 管理 标准 ITIL 中 的 一 个 重要 范畴 。 数 据 中 心 在 多 年 的 灾难 
备份 服务 经 历 中 深刻 体会 到 : 在 对 灾难 备份 系统 的 长 期 的 服务 管理 工作 中 ,变更 管理 是 一 
个 极其 关键 的 、 绝 对 不 可 忽视 的 重要 工作 范畴 。 可 以 毫 不 夸张 地 说 ,变更 管理 的 好 坏 ,将 直 
接 影响 到 我 们 建设 的 灾难 备份 系统 ,是 否 能 够 在 紧急 灾难 关头 成 功 地 实现 系统 及 时 切换 并 
恢复 运行 。 
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根据 数据 中 心 对 灾难 备份 系统 多 年 维护 管理 的 经 验 ,我 们 认为 灾难 备份 系统 通常 具有 
以 下 的 特性 。 

@ 灾难 备份 系统 一 旦 建立 ,需要 在 长 达 数 年 甚至 数 十 年 间 的 整个 服务 周期 内 一 直 保 持 
其 完整 性 和 有 效 可 用 人 性。 

@ 灾难 备份 系统 所 面 对 的 生产 系统 一 定 会 变更 ,灾难 备份 系统 的 变更 将 和 生产 系统 的 
变更 保持 一 致 或 处 理性 能 的 匹配 ,但 生产 系统 的 变更 并 不 依赖 于 灾难 备份 系统 的 变更 完 

@ 对 灾难 备份 系统 的 变更 需求 通常 会 被 忽略 ,使 灾难 备份 系统 的 变更 经 常 处 于 未 知 或 
被 动 的 状态 。 

因此 , 当 灾 难 备份 系统 建立 并 投入 运行 以 后 ,为 切实 地 保证 这 个 备份 系统 能 够 长 期 有 效 
地 与 生产 系统 保持 同步 可 用 ,一 个 关键 问题 就 是 要 保证 备份 系统 根据 生产 系统 的 变更 保持 
有 效 同 步 的 变更 。 

灾 备 中 心 根据 在 国内 灾难 恢复 行业 多 年 运作 的 经 验 ,结合 国内 容 户 的 特点 制定 出 一 整 
套 切实 可 靠 和 行 之 有 效 的 变更 管理 服务 措施 ,能 够 在 长 期 维护 客户 灾难 备份 系统 的 服务 工 
作 中 ,确保 客户 灾难 备份 系统 根据 生产 系统 的 变更 进行 有 效 同步 的 互动 ,并 在 工作 中 尽力 保 
证 生产 系统 和 备份 系统 的 平稳 变更 。 

1. 变更 管理 目标 

数据 中 心 将 提供 流程 化 的 变更 管理 ,减少 或 避免 因为 疏忽 、 缺 少 资 源 、 准 备 不 充分 等 缘 
故 导 致 变更 失败 或 产生 其 他 的 问题 。 

GD 确保 所 有 对 灾难 备份 系统 的 变更 都 遵循 标准 的 方法 .程序 和 规则 进行 。 

@ 确保 所 有 对 灾难 备份 系统 的 变更 都 能 快捷 有 效 地 进行 。 

@ 减少 或 避免 与 变更 相关 的 事故 对 灾难 备份 系统 运行 的 影响 。 

鳃 确保 所 有 对 灾难 备份 系统 的 变更 都 有 明确 .完整 的 记录 可 追踪 。 

@ 确保 所 有 的 变更 都 有 严格 审核 机 制 和 恢复 方案 。 

@ 通过 对 变更 的 评估 管理 ,采取 相应 的 控制 措施 控制 变更 的 风险 。 

2. 变更 内 容 分 析 

灾难 备份 系统 所 面临 的 变更 范围 将 涵盖 硬件 软件 、 网 络 、 通 信 、 服 务 要 求 ,文档 流程 等 
几 个 方面 。 

(1) 硬件 变更 

由 于 生产 系统 硬件 配置 的 变更 而 引起 的 对 灾难 备份 系统 的 设备 硬件 进行 的 变更 ,比如 
硬件 更 换 、 硬 件 升 级 等 。 

(2) 软件 变更 

由 于 生产 系统 的 操作 系统 或 相关 软件 的 变更 所 引起 的 对 灾难 备份 系统 中 相关 系统 软 
件 、. 应 用 软件 .通信 软件 等 进行 的 变更 ,比如 操作 系统 版 本 升级 .软件 产品 版 本 升级 或 更 换 、 
镜像 卷 组 的 调整 等 。 

(3) 网 络 变更 

由 于 生产 网 络 配置 的 变更 所 引起 的 对 灾难 备份 系统 网 络 配置 进行 的 变更 ,比如 路 由 配 
置 、 网 点 配置 等 。 

(4) 通信 变更 

为 满足 灾难 备份 系统 对 通信 线路 需求 而 进行 的 变更 ,比如 带宽 升级 等 。 
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(5) 服务 要 求 变 更 

如 对 mirror view 数据 复制 系统 暂停 /恢复 的 要 求 , 对 备份 磁带 循环 的 周期 变更 等 。 

(6) 文档 流程 变更 

对 支持 或 维护 灾难 备份 系统 正常 运行 的 所 有 相关 文档 ,规程 流程 进行 的 变更 。 

此 外 ,根据 灾难 备份 系统 的 运行 特点 ,灾难 备份 系统 发 生 的 变更 将 分 为 以 下 几 种 可 能 的 
类 型 。 举 例如 下 。 

(1) 常规 变更 : 对 灾难 备份 系统 所 进行 的 变更 是 双方 预先 约定 的 变更 范围 ,相应 的 变 
更 工作 流程 事先 应 已 经 双方 共同 确定 。 

(2) 项 目 变 更 : 对 灾难 备份 系统 所 需 进行 的 变更 是 双方 无 法 事先 约定 的 ,在 灾难 备份 
系统 长 期 运行 过 程 中 随 着 业务 发 展 而 产生 的 ,这 类 变更 往往 涉及 备份 系统 的 配置 变更 ,需要 
经 过 双方 进行 变更 方案 及 成 本 的 协商 确定 后 方 可 实施 的 变更 。 比 如 设备 硬件 升级 、 通 信 线 
路 带宽 升级 、 服 务 范围 增加 等 。 

(3) 紧急 变更 : 由 于 意外 原因 引发 的 对 灾难 备份 系统 进行 的 临时 变更 ,需要 提交 对 方 
紧急 处 理 , 如 通信 线路 临时 发 送 维修 暂停 通知 等 情况 所 产生 的 变更 。 

3. 变更 管理 服务 方式 

根据 以 上 变更 内 容 分 析 , 灾 备 中 心 提 供 的 变更 管理 服务 将 从 以 下 几 个 方面 实现 。 

(1) 建立 有 效 的 变更 互动 机 制 

数据 中 心 可 根据 对 灾难 备份 系统 维护 服务 的 经 验 , 提 出 一 套 变更 知 会 的 通知 及 互动 流 
程 ,在 此 基础 上 ,双方 再 针对 生产 系统 的 运行 和 管理 特点 ,共同 协商 和 制定 一 套 可 共同 操作 
的 《变更 知 会 单 ) 及 变更 处 理 流程 。 该 变更 处 理 流程 同时 适用 于 同城 和 异地 灾 备 中 心 。 

(2) 变更 响应 热线 

灾 备 中 心 将 提供 7xX24 小 时 客户 服务 热线 电话 和 应 急 响应 电话 ,可 在 任何 时 间 内 响应 
和 受理 客户 提交 的 变更 请 求 ,将 变更 请 求 及 时 分 派 到 有 关 部 门 进行 相应 处 理 之 后 ,还 将 跟踪 
变更 的 执行 情况 ,将 处 理 结果 及 时 反馈 或 以 书面 汇报 。 

(3) 定期 基准 核对 

灾 备 中 心 将 定期 进行 灾难 备份 系统 的 基准 环境 核对 工作 ,对 有 关 设 备 的 硬件 配置 .操作 
系统 版 本 /配置 .应 用 软件 版 本 、 网 络 设 备 及 配置 等 情况 进行 统计 与 核对 ,同时 根据 统计 核对 
的 结果 更 新 双方 的 文档 资料 ,确保 灾难 备份 系统 与 生产 系统 处 于 同步 更 新 的 状态 之 中 。 

(4) 定期 统计 报告 

灾 备 中 心 将 定期 提供 当期 灾难 备份 系统 的 变更 汇总 统计 报告 ,以 便 客户 (或 委 办 局 ) 详 
细 了 解 灾难 备份 系统 的 变更 情况 及 变更 后 的 现状 。 

4. 变更 处 理 流程 

常规 变更 和 紧急 变更 的 发 起 源 自 于 两 个 不 同方 面 ,为 此 ,数据 中 心 灾难 备份 中 心 初步 考 
虑 了 以 下 两 类 变更 处 理 流程 框架 ,具体 变更 处 理 流程 将 在 新 一 期 项 目 实施 中 进行 完善 。 

(1) 重大 变更 处 理 流 程 

当 因 业 务 发 展 需要 ,在 服务 期 内 对 生产 数据 中 心 进 行 同 城 范围 内 的 搬迁 或 对 灾难 备份 
系统 现 有 的 设备 系统、 网 络 、 服 务 方案 等 提出 变更 需求 时 ,数据 中 心 将 对 变更 需求 所 涉及 的 
范围 进行 评估 ,在 确定 服务 内 容 不 变 的 前 提 下 ,根据 评估 的 结果 提交 变更 实施 报告 ,包括 变 
更 的 实施 计划 实施 方 案 及 所 需 的 资源 测试 的 目标 等 ,双方 就 变更 报告 共同 商定 完善 并 予 
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以 实施 。 
(2) 紧急 变更 处 理 流程 

紧急 变更 实施 过 程 中 存在 很 大 的 不 确定 性 ,应 尽量 减少 紧急 变更 , 当 紧 急 变 更 无 法 避免 
时 , 按 以 下 流程 进行 处 理 : 灾 备 中 心 .客户 或 委 办 局 任何 一 方 提出 紧急 变更 请 求 时 ,都 应 该 
根据 影响 度 、 紧 迫 性 ,优先 级 对 变更 进行 评估 ,确定 变更 请 求 属于 紧急 变更 ,否则 按 常规 变更 
处 理 流程 进行 处 理 。 确 认 变 更 为 紧急 变更 后 ,双方 必须 通过 双方 约定 的 方式 通知 对 方 , 并 共 
同 进行 紧急 变更 实施 方案 准备 ,如 有 时 间 对 变更 实施 方案 进行 测试 ,应 尽量 安排 测试 ,确保 
变更 实施 方案 的 安全 性 、 可 操作 性 。 双 方 根据 确定 后 的 紧急 变更 实施 方案 协调 相关 资源 实 
施 变 更 。 若 变更 实施 成 功 ,总 结 变更 实施 情况 ,并 知 会 相关 人 员 紧 急 变更 处 理 完成 ;否则 启 
动 回 退 计划 ,重新 准备 变更 实施 方案 ,组织 变更 实施 。 


9.2.6 问题 管理 服务 


问题 管理 服务 也 是 IT 服务 管理 标准 ITIL 中 的 一 个 极为 重要 的 范畴 。 根 据 数据 中 心 
在 灾难 备份 服务 行业 的 实践 经 验 ,我 们 认识 到 : 面向 灾难 备份 系统 的 运行 特点 及 维护 要 
求 , 问 题 管 理 是 一 个 需要 认真 对 待 和 认真 管理 的 重要 工作 范畴 。 问 题 管理 的 水 平 , 将 直 
接 影响 到 以 高 科技 手段 建立 起 来 的 灾难 备份 系统 ,是 否 能 够 在 日 复 一 日 、 年 复 一 年 的 长 
期 运行 过 程 中 保持 稳定 可 靠 的 运转 ,从 而 确保 灾难 备份 系统 真正 能 够 达到 我 们 预期 的 标 
准 和 希望 。 

1. 问题 管理 目标 

数据 中 心 根据 自身 多 年 的 数据 中 心 管理 以 及 灾难 恢复 运作 经 验 ,结合 国内 容 户 的 特点 ， 
制定 了 一 套 完 善 有 效 的 问题 管理 服务 制度 和 措施 。 长 期 以 来 ,数据 中 心 在 维护 客户 灾难 备 
份 系统 的 工作 中 , 正 是 依靠 这 套 制度 做 到 了 : 在 发 生 问 题 前 ,能 尽早 消除 隐患 ;在 发 生 问 题 
后 ,能 及 时 发 现 问 题 ,并 有 效 控制 问题 影响 范围 ;在 定位 问题 后 ,能够 分 析 问 题 发 生 的 原因 ， 
迅速 解决 问题 ,并 有 效 防止 同类 问题 的 再 次 发 生 。 

数据 中 心 将 提供 流程 化 的 问题 管理 ,减少 或 避免 因 人 为 朴 忽 或 处 理 不 当 等 原因 而 导致 
的 任何 过 失 。 

a 确保 所 有 对 灾难 备份 系统 的 问题 处 理 都 按照 标准 的 流程 和 规则 有 序 进行 。 

@ 确保 所 有 对 灾难 备份 系统 的 问题 处 理 都 能 快捷 有 效 地 进行 。 

@ 确保 所 有 对 灾难 备份 系统 的 问题 处 理 都 有 明确 、 完 整 的 记录 可 追踪 。 

@ 对 所 有 问题 的 处 理 过 程 和 结果 都 要 进行 事后 评估 ,采取 相应 的 控制 措施 来 避免 问题 
的 再 次 发 生 。 

2. 问题 管理 服务 方式 

数据 中 心 灾难 备份 系统 提供 的 变更 管理 服务 将 从 以 下 几 个 方面 实现 。 

(1) 严密 防备 

灾 备 中 心 将 根据 客户 或 委 办 局 灾难 备份 系统 的 生产 运行 要 求 , 建 立 相 关 的 设备 .系统 、 
网 络 巡 检 监控 机 制 ,并 严格 执行 。 

(2) 实时 监控 

灾 备 中 心 将 为 客户 或 委 办 局 灾难 备份 系统 提供 7X 24 小 时 的 运行 监控 服务 ,以 确保 可 
以 及 时 发 现 和 报告 问题 。 
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(3) 问题 响应 热线 

灾 备 中 心 将 提供 7 关 24 小 时 服务 热线 电话 ,可 在 任何 时 间 内 响应 和 受理 问题 报告 ,将 问 
题 报 告 及 时 分 派 到 有 关 部 门 进行 相应 处 理 之 后 ,还 将 跟踪 问题 的 执行 情况 ,将 处 理 结 果 向 相 
关 单位 及 时 反馈 或 以 书面 形式 汇报 。 

(4) 问题 响应 处 理 

灾 备 中 心 将 配备 7X24 小 时 值班 的 技术 工程 师 , 确 保 可 以 及 时 响应 、 处 理 灾难 备份 系统 
发 生 的 问题 。 

(5) 问题 处 理 汇报 

灾 备 中 心 对 每 次 问题 发 生 及 处 理 的 结果 进行 经 验 和 教训 的 总 结 , 根 据 需 要 更 新 双方 的 
灾难 恢复 文档 资料 ,确保 灾难 备份 系统 的 持续 稳定 运行 。 

(6) 定期 统计 报告 

灾 备 中 心 将 定期 提供 当期 灾难 备份 系统 的 问题 汇总 统计 报告 ,对 灾难 备份 系统 发 生 的 
问题 进行 趋势 分 析 ,发 现 灾难 备份 系统 存在 的 隐患 ,提出 处 理 建议 ,以 便 相关 各 单位 详细 了 
解 灾难 备份 系统 的 运行 情况 及 发 展 趋势 。 

3. 问题 管理 流程 

问题 的 发 现 及 报告 将 会 源 自 于 两 个 不 同方 面 ,为 此 ,数据 中 心 初步 考虑 了 以 下 两 类 问题 
处 理 流程 框架 ,具体 问题 处 理 流程 还 将 在 新 一 期 项 目 实施 中 进行 完善 。 

(1) 对 发 起 的 问题 报告 的 处 理 流程 

当 从 生产 中 心 一 端 发 现 灾 难 备 份 系统 发 生 问 题 时 ,可 按 下 述 处 理 流程 向 灾 备 中 心 通报 
问题 ,双方 将 尽快 解决 问题 ,以 求 尽 可 能 降低 问题 对 灾难 备份 系统 的 影响 或 尽快 恢复 灾难 备 
份 系统 的 正常 运行 ,如 图 9-5 所 示 。 

以 上 流程 的 主要 处 理 环节 如 下 。 

详细 记录 问题 发 生 的 时 间 涉及 的 设备 系统 .问题 现象 ,并 按 约定 的 方式 及 时 通知 灾 备 
中 心 。 灾 备 中 心 接 到 发 来 的 问题 通知 后 ,值班 工程 师 将 立即 到 位 ,并 组 织 力量 对 问题 进行 处 
理 ,尽快 恢复 灾难 备份 系统 的 正常 运行 。 问 题 处 理 完成 后 , 灾 备 中 心 将 提交 相关 问题 处 理 报 
告 。 若 问题 需要 客户 或 委 办 局 进行 处 理 , 相 关 单 位 应 协调 相关 资源 进行 问题 处 理 , 灾 备 中 心 
值班 工程 师 将 全 力 配 合 进行 问题 处 理 。 问 题 处 理 完成 后 ,相关 单位 应 提交 相关 问题 处 理 
报告 。 

(2) 对 数据 中 心 灾难 备份 中 心 发 起 的 问题 报告 的 处 理 流程 

当 灾 备 中 心 在 灾难 备份 系统 的 监控 过 程 中 发 现 灾难 备份 系统 运行 出 现 问题 时 , 灾 备 中 
心 将 按 下 述 处 理 流 程 报告 问题 ,双方 将 尽快 解决 问题 ,以 求 尽 可 能 降低 问题 对 灾难 备份 系统 
的 影响 或 尽快 恢复 灾难 备份 系统 的 正常 运行 。 主 要 处 理 环节 如 下 。 

灾 备 中 心 将 对 问题 作 详细 的 记录 ,并 及 时 报告 数据 中 心 灾难 备份 中 心 值班 工程 师 。 问 
题记 录 的 内 容 包 括 : 四 问题 发 生 的 时 间 和 日 期 ; 四 问题 现象 描述 ; 加 问题 发 现 人 的 信息 。 

灾 备 中 心 值班 工程 师 受 理 问题 后 ,将 按 以 下 方式 对 问题 进行 归 类 、 定 级 ,并 按 约定 的 方 
式 及 时 通知 相关 人 员 。 

@ 确定 与 问题 相关 的 服务 ; 

@ 问题 对 服务 的 影响 情况 ; 

@ 问题 的 大 小 、 范 围 和 复杂 程度 ; 
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发 现 问题 








1 
填写 “问题 报告 处 理 表 " 
并 通知 灾 备 中 心 





CE 
灾 备 中 心 收 到 后 回复 














1 
灾 备 中 心 检查 备份 服务 系统 的 
并 告知 


运行 














按照 客户 的 要 求 执行 处 理 








1 
灾 备 中 心 把 处 理 结果 报告 客户 























i 灾 备 中 心 对 问题 记录 汇总 


总 结 








图 9-5 问题 管理 流程 


图 当前 可 供 处 理事 故 的 资源 。 

灾 备 中 心 将 协调 资源 ,包括 第 三 方 厂商 ,对 问题 进行 调查 分 析 , 找 出 问题 发 生 的 根本 原 
因 ,提出 问题 的 解决 方案 ,并 组 织 对 问题 解决 方案 进行 测试 。 若 问题 解决 方案 测试 不 通过 ， 
将 重新 提交 问题 解决 方案 。 

数据 中 心 协调 相关 资源 实施 问题 解决 方案 ,解决 问题 ,恢复 灾难 备份 系统 的 正常 运行 。 

问题 处 理 完 成 后 , 灾 备 中 心 将 提交 问题 处 理 报告 ,对 问题 处 理 情况 进行 总 结 ,必要 时 提 
出 预防 措施 ,防止 问题 的 再 次 发 生 。 

若 问题 需要 客户 或 委 办 局 进行 处 理 , 相 关 单位 应 协调 相关 资源 进行 问题 处 理 , 数 据 中 心 
灾难 备份 中 心 值班 工程 师 将 全 力 配合 问题 的 处 理 。 问 题 处 理 完 成 后 ,相关 单位 应 提交 相关 
问题 处 理 报告 。 

(3) 重大 问题 处 理 流程 

当 灾 备 中 心 或 客户 ( 委 办 局 ) 在 对 灾难 备份 系统 的 监控 过 程 中 发 现 灾难 备份 系统 运行 出 
现 重大 问题 时 ,双方 应 本 着 快速 报告 ,快速 解决 的 精神 对 重大 问题 进行 处 理 和 解决 ,以 求 尽 
可 能 降低 问题 对 灾难 备份 系统 的 影响 或 尽快 恢复 灾难 备份 系统 的 正常 运行 。 


9.2.7 客户 服务 管理 


为 确保 数据 中 心 提供 的 灾难 备份 服务 符合 约定 要 求 , 灾 备 中 心 除了 建立 以 上 的 各 项 管 
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理 服务 体系 之 外 ,还 要 确保 客户 对 灾 备 中 心服 务 质 量 及 对 灾难 备份 系统 的 运行 情况 的 评价 
及 时 准确 地 反馈 到 灾 备 中 心 。 

为 此 ,数据 中 心 对 提供 的 各 项 服务 进行 客户 服务 水 平 的 质量 管理 控制 。 

在 以 客户 为 中 心 的 客户 服务 水 平 管理 过 程 中 ,数据 中 心 会 从 以 下 几 个 方面 切实 体现 真 
正 优 质 的 服务 管理 水 平 。 

1. 完善 服务 标准 

数据 中 心 将 根据 客户 灾难 备份 系统 的 运行 特点 ,在 服务 中 达到 灾 备 中 心 应 提供 的 灾难 
备份 运营 服务 指标 要 求 ,并 以 此 为 目标 来 严格 执行 。 

2. 建立 联动 机 制 

建立 生产 中 心 与 同城 灾难 备份 中 心 联动 机 制 ,包括 联络 方式 、 对 应 人 员 等 ,一 旦 出 现 紧 
急 情 况 ,根据 约定 在 第 一 时 间 联 系 对 应 人 员 共 同 解决 问题 ,提高 事件 响应 速度 。 

3. 客户 经 理 负责 

数据 中 心 将 指定 专门 的 客户 经 理 , 定 期 前 往 客户 或 委 办 局 征询 对 灾难 备份 中 心服 务 情 
况 的 反映 ,并 将 问题 和 建议 及 时 反馈 到 数据 中 心 ,敦促 公司 各 有 关 部 门 和 灾难 备份 中 心 做 出 
及 时 的 改进 和 修正 ,并 将 改进 措施 及 结果 及 时 向 相关 单位 汇报 。 

4. 月 度 服务 报告 

数据 中 心 将 每 月 定期 向 服务 客户 提交 上 月 的 系统 运行 月 报 , 其 中 将 包含 以 下 各 项 内 容 : 

@ 机 房 运行 情况 汇报 ; 

@ 数据 复制 系统 的 运行 情况 ,数据 统计 及 维护 情况 汇报 ; 

@ 备份 设备 系统 的 检查 维护 情况 汇报 ; 

@ 灾难 备份 系统 的 变更 汇总 情况 汇报 ; 

加 问题 处 理 情况 汇报 ; 

@ 服务 水 平 (SLA) 执 行情 况 汇报 ; 

@ 存在 问题 与 解决 建议 ; 

@ 双方 往来 文档 列表 ; 

@ 其 他 约定 的 情况 汇报 。 

5. 定期 评估 总 结 

数据 中 心 将 定期 召开 灾难 备份 服务 情况 的 评估 总 结 会 。 总 结 会 将 由 数据 中 心 提交 当期 
的 服务 运行 报告 ,针对 各 项 服务 情况 进行 汇报 ,并 由 服务 客户 对 整体 服务 情况 进行 评估 总 
结 ,最 后 双方 共同 对 存在 的 差异 制定 相关 的 改进 措施 ,在 不 断 总 结 的 基础 上 持续 进步 。 


9.2.8 运 维 服务 质量 管理 


为 保证 灾 备 系统 安全 、 稳 定 、 有 效 地 运行 ,运行 维护 系统 服务 质量 起 到 关键 作用 ,数据 中 
心 公司 将 制定 一 套 对 服务 质量 的 管理 评估 标准 ,并 按照 服务 合约 对 服务 的 质量 进行 检查 和 
评估 。 

1. 服务 质量 管理 

为 确保 数据 中 心 公司 提供 的 服务 是 可 测量 、 可 评估 、 可 持续 改进 的 专业 服务 。 数 据 中 心 
根据 服务 水 平 协 议和 工作 内 容 说 明 制 定 服务 质量 测评 管理 标准 ,对 生产 系统 维护 服务 过 程 
的 服务 目标 进行 定义 ,对 服务 范围 明确 说 明 、 服 务 指标 量化 、 服 务 质量 要 求 与 测评 方法 进行 
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定义 ,然后 定期 进行 检查 ,并 定期 按 此 标准 进行 评测 和 检查 。 

2. 服务 质量 评估 

数据 中 心 对 日 常 运营 服务 的 内 容 进行 量化 定义 ,定期 提交 系统 运行 的 服务 水 平 达成 表 ， 
总 结 分 析 服 务 提供 情况 以 及 对 服务 存在 的 差异 进行 服务 质量 的 评估 。 


9.2.9 服务 水 平 管 理 


1. 客户 服务 经 理 

数据 中 心 公司 将 指定 专人 作为 本 项 目的 客户 服务 经 理 。 客 户 服务 经 理 作 为 客户 和 数据 
中 心 公司 的 唯一 正式 桥梁 ,沟通 ,协调 和 管理 数据 中 心 公司 内 部 的 一 切 资源 是 为 了 提供 优 运 
维 管理 外 包 服 务 。 

客户 服务 经 理 将 组 织 运 维 服务 管理 团队 并 对 数据 中 心 公司 投标 书 中 提供 的 所 有 服务 情 
况 进行 监控 和 自我 检查 。 并 且 与 相关 人 员 及 时 沟通 ,了 解 最 新 需求 并 及 时 反馈 。 

2. 服务 内 容 描 述 

服务 水 平 管理 是 保证 数据 中 心 公司 能 够 按照 合同 约定 的 服务 内 容 和 服务 水 平顺 利 交 付 
服务 的 最 基础 保证 。 此 服务 的 提供 者 是 数据 中 心 公司 客户 服务 经 理 。 

数据 中 心 公司 的 客户 服务 管理 遵循 数据 中 心 公司 多 年 外 包 经 验 总 结 的 GPMM( 数 据 中 
心 程序 管理 模式 ) 项 目 管理 方法 论 ,针对 这 套 方法 论 ,数据 中 心 公司 将 对 运营 管理 提供 项 目 
管理 服务 。 

数据 中 心 客户 服务 经 理 每 月 根据 需要 和 项 目 经 理 组 织 召 开 双 方 的 服务 总 结 例会 ,总 结 
所 在 机 房 基础 设施 维护 的 执行 情况 和 相关 厂商 的 服务 情况 。 


9.2.10 灾难 恢复 服务 


当 生 产 中 心 发 生 灾难 时 , 灾 备 中 心 提 供 如 下 灾难 恢复 服务 。 
(1) 系统 网 络 准备 就 绪 检查 包括 以 下 方面 。 
O@D 灾 备 中 心 系统 运行 状况 检查 ; 
@ 灾 备 中 心 网 络 设备 运行 状况 检查 ; 
@ 灾 备 中 心 与 生产 中 心 .各 支 机 构 通 信 线 路 、 网 络 流量 及 传输 质量 检查 ; 
@ 机 房 环境 准备 就 绪 检 查 ; 
@ 特殊 授权 处 理 流程 启动 ,包括 灾 备 中 心 人 员 出 入 、 机 房 门 禁 卡 、 用 户 使 用 等 。 
(2) 环境 及 支持 人 员 准 备 就 绪 检查 。 
(3) 协助 信息 管理 服务 包括 以 下 方面 。 
Q@ 提供 灾 备 中 心 整体 运行 状况 报告 ; 
@ 灾 备 系统 切换 准备 就 绪 报告 ; 
@ 协助 通知 相关 人 员 及 单位 。 
(4) 场地 保障 支持 服务 。 
(5) 网 络 保障 支持 服务 及 所 需 网 络 开通 服务 。 
(6) 配合 执行 灾难 恢复 预案 包括 以 下 三 点 。 
@ 实施 系统 切换 ; 
@ 进度 控制 ; 
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@ 实施 中 间 题 记录 分析、 总 结 及 报告 。 
(7) 后 勤 保障 准备 就 绪 。 


9.2.11 应 急 资源 保障 


1. 人 员 保 障 

人 力 资 源 的 保障 是 应 急 保障 措施 中 的 一 项 重要 工作 内 容 。 在 应 急 响应 工作 中 ,各 部 门 
应 服从 应 急 领 导 组 .应急 管理 组 的 统一 协调 和 安排 。 

应 加 强 信 息 系统 突 发 事件 应 急 技 术 支 持 队伍 的 建设 ,通过 各 种 应 急 管 理 与 应 急 技术 的 
培训 和 应 急 演 练 , 不 断 提 高 应 急 人 员 的 业务 素质 技术 水 平和 应 急 处 置 能 力 。 

2. 设备 保障 

应 按 需要 配备 相应 的 应 急 设 备 。 应 急 设 备 包括 但 不 限于 以 下 方面 : 

on eae id 

@ 通信 网络 的 关键 设备 部 件 ( 核 心路 由 器 核心 交换 机 等 的 元 余 配置 ); 

@ 应 急 响应 相关 工具 ,包括 木马 ,后 门 检测 工具 等 。 

对 于 重要 信息 系统 的 设备 部 件 , 根 据 应 急 情 况 需 要 临时 配备 应 急 设备 时 ,可 与 相关 厂商 
签署 紧急 供 货 协 议 或 租赁 协议 。 

3. 财务 保障 

财务 部 门 应 对 信息 系统 应 急 响 应 所 需 的 相关 经 费 给 予 充 分 保障 ,相关 经 费 需 求 应 包括 
但 不 局 限 以 下 几 个 方面 

QO@ 应 急 响 应 相关 人 员 培 训 费 用 ; 

be 应 急 设备 购置 费 ; 

应 急 演 练 相关 费用 ; 

应 急 支 援 服务 费 等 。 

4. 通信 保障 

应 急 期 间 , 指 挥 \ 通 信 联 络 和 信息 交换 的 渠道 应 该 得 到 保证 ,主要 通信 方式 包括 但 不 限 
于 电话 、 手 机 、 传 真 . 电 子 邮 件 等 ,有 关 应 急 联 系 的 手机 应 保持 24 小 时 开机 状态 。 





应 急 期 间 , 需 要 按照 事先 规定 的 沟通 路 径 在 信息 系统 应 急 响应 组 织 成 员 之 间 进 行 沟通 ， 
以 保证 通信 渠道 畅通 ,避免 信息 通道 拥堵 。 

5. 后 勤 保障 

信息 管理 部 门 应 做 好 信息 系统 应 急 响 应 后 勤 保障 工作 ,确保 信息 系统 应 急 响 应 工作 的 
顺利 开展 。 

信息 系统 应 急 响 应 后 勤 保障 主要 包括 : 应 急 人 员 食 宿 、 交 通 的 安排 ,应 急 物资 的 运输 ， 
应 急 办 公 环 境 的 提供 和 管理 。 

6. 技术 保障 


应 急 技术 资料 是 成 都 市 工商 局 信息 系统 重要 的 技术 信息 ,包括 网 络 拓扑 结构 .应 用 系统 
(包含 数据 库 、 中 间 件 、 应 用 软件 ) 的 配置 .相关 设备 的 型 号 及 配置 .主要 服务 商 信息 等 详细 信 
息 。 市 局 信息 管理 部 门 应 将 这 些 信息 建立 技术 档案 并 及 时 更 新 ,以 保证 与 实际 情况 的 一 
至 性 。 

在 经 费 得 以 保障 的 情况 下 ,应 与 厂商 和 服务 商 签订 服务 水 平 协议 ,加 入 应 急事 件 技术 支 
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持 的 内 容 , 保 证 外 部 技术 人 员 在 应 急事 件 发 生 时 能 够 在 规定 时 间 内 到 达 现场 ,参与 事件 损害 
评估 、 系 统 抢修 及 系统 切换 等 工作 。 

市 局 信息 管理 部 门 应 与 第 三 方 的 技术 专家 保持 沟通 ,逐步 建立 应 对 各 种 信息 系统 突 发 
事件 的 应 急 专家 组 。 


9.2.12 应 急 宣传 .培训 与 演练 


1. 宣传 

市 局 信息 管理 部 门 应 利用 各 种 途径 宣传 应 急 响 应 相关 法 律 法 规 和 应 急 响 应 基础 知识 ， 
开展 信息 系统 突 发 事件 应 急 预 防 、 预 警 、 自 救 . 互 救 和 减灾 等 知识 的 宣传 活动 ,普及 信息 系统 
应 急 处 置 的 基本 知识 

2. 培训 

在 网 络 与 信息 系统 安全 应 急 预 案 编制 完成 和 修订 后 ,市 局 信息 管理 部 门 应 通过 培训 使 
有 关 人 员 熟 练 掌握 应 急 处 理 的 程序 ,明确 自己 在 突 发 事件 中 所 承担 的 角色 和 职责 ,提高 应 急 
处 理 能 力 。 

为 确保 网 络 和 信息 系统 安全 应 急 预 案 有 效 运行 ,市 局 信息 管理 部 门 、 各 单位 在 网 络 
与 信息 系统 安全 应 急 预 案 编制 完成 和 修订 后 ,应 定期 或 不 定期 组 织 不 同 层次 、 不 同类 型 
的 培训 班 或 研讨 会 ,以 便 不 同 岗 位 的 应 急 人 员 都 能 全 面 熟悉 并 掌握 信息 系统 应 急 处 理 的 
知识 和 技能 。 

涉及 预案 的 各 级 人 员 应 结合 本 岗位 安全 职责 和 应 急 预 案 的 要 求 , 管 理 人 员 应 熟练 掌握 
本 单位 应 急 预 案 中 有 关 报 警 .接警 ,处警 和 组 织 指挥 应 急 响 应 的 程序 等 内 容 , 专 项 应 急 预 案 
操作 人 员 应 熟悉 各 个 操作 步骤 和 操作 命令 。 

各 单位 网 络 与 信息 系统 安全 教育 应 包括 本 单位 应 急 预 案 的 有 关内 容 , 使 有 关 人 员 熟 悉 
本 单位 应 急 处 理 的 流程 ,应 急 处 理 设施 的 使 用 ,应 急 联系 电话 .应急 报告 的 内 容 和 格式 。 

3. 演练 

为 了 验证 .完善 和 优化 预案 中 的 各 项 内 容 ( 包 括 管理 组 织 机 构 \ 人 员 安 排 \ 应 急流 程 . 资 
源 保障 等 ) ,确保 在 突 发 事件 发 生 的 情况 下 ,具备 对 突 发 事件 的 应 急 响 应 处 理 能 力 ,制定 预案 
的 演练 及 维护 计划 。 

演练 的 主要 目的 在 于 确认 当前 应 急 恢复 所 制定 的 策略 、 组 织 机 构 、 人 员 角 色 、 应 急 响应 
具体 流程 均 已 被 所 有 相关 人 员 所 充分 了 解 ,验证 现 有 应 急流 程 的 正确 性 和 有 效 性 ,发 现 潜在 
的 问题 ,完善 和 优化 现 有 的 应 急流 程 ,符合 预期 目标 。 

演练 采取 循序 渐进 的 方法 ,在 范围 上 遵循 由 小 到 大 的 原则 ;在 流程 上 采用 分 阶段 的 处 理 
方法 ;在 演练 的 过 程 中 不 断 测试 和 完善 应 急 工作 中 的 各 个 环节 ,最 终 达 到 对 整个 应 急流 程 的 
测试 和 完 

应 急 预案 的 演练 需要 制订 详细 周全 的 演练 计划 及 相关 准备 工作 ,合理 安排 ,精细 组 织 ， 
确保 演练 工作 的 安全 ,并 制定 出 各 种 意外 情况 出 现时 的 应 急 措施 。 

要 明确 演练 的 目的 和 要 求 ,记录 演 练 过 程 , 对 演练 结果 进行 评估 和 总 结 。 

各 单位 应 根据 信息 系统 的 关键 点 和 薄弱 点 ,根据 系统 和 设备 的 重要 程度 有 针对 性 地 开 
展演 练 , 演 练 应 突出 重点 和 关键 。 

各 专项 应 急 预 案 制定 后 ,各 单位 要 组 织 相 应 的 演练 ,在 重大 节假日 前 均 应 开展 相关 的 演 

281 


数据 安全 与 灾 备 管理 
练 。 各 单位 每 年 应 至 少 组 织 一 次 联合 演习 。 

各 单位 要 通过 演练 验证 本 单位 应 急 预 案 和 各 专项 应 急 预 案 的 合理 性 ,及 时 修订 和 完善 
应 急 预 案 和 各 专项 应 急 预 案 。 





9.3 安全 管理 服务 


为 实现 灾 备 系统 运营 管理 中 可 靠 性 的 目标 ,数据 中 心 将 提供 对 于 灾 备 中 心 以 及 灾难 备 
份 系统 的 安全 控制 。 在 项 目 实施 准备 期 间 ,数据 中 心 将 与 客户 共同 开发 制订 信息 安全 管理 
文件 ,并 就 有 关 项 目 安全 控制 实施 得 到 双方 共同 认可 。 数 据 中 心 须 严格 遵守 双方 签订 的 灾 
难 备份 服务 系统 相关 合同 中 的 保密 条 款 。 


9.3.1 安全 管理 通则 


数据 中 心 提供 以 下 安全 管理 通则 ,并 承担 相应 的 责任 。 

(1) 数据 中 心 确认 其 在 中 国境 内 开展 灾难 备份 系统 相关 运营 服务 的 合法 合 规 性 。 

(2) 确认 满足 国家 和 行业 主管 部 门 的 从 业 资 质 要 求 。 

(3) 在 项 目 实施 准备 期 间 ,与 客户 或 委 办 局 确认 日 常 运行 手册 中 安全 管理 内 容 , 并 在 双 
方 共同 认可 后 予以 实施 。 

(4) 数据 中 心 将 依据 国际 通行 的 ISO9000 ISO20000 与 ISO27001 等 标准 ,在 灾 备 中 心 
内 部 建立 QMS 与 ISMS ,强化 灾 备 系统 的 信息 安全 管理 。 

(5) 数据 中 心 将 通过 内 外 部 审核 工作 的 开展 ,确保 各 项 制度 流程 .工作 得 到 合理 的 
实施 。 

(6) 数据 中 心 将 根据 法 律 法规、 技术 与 客户 的 要 求 ,定期 调整 灾 备 中 心 的 安全 管理 体 
系 ,确保 安全 管理 的 要 求 能 真正 落实 到 灾 备 中 心 的 日 常 运营 当中 。 


9.3.2 人 员 的 安全 


灾 备 中 心 确认 其 在 中 国境 内 开展 灾难 备份 系统 相关 运营 服务 的 合法 合 规 性 ,灾难 备份 
中 心 将 严格 遵守 国家 的 法 律 、 法 规 ,确保 在 本 运营 服务 期 间 涉 及 的 客户 数据 安全 和 业务 
秘密 。 

(1) 所 有 数据 中 心 参与 本 运营 服务 项 目的 人 员 , 均 与 公司 签订 保密 协议 。 

(2) 灾 备 中 心 及 其 员工 承诺 将 严格 遵守 法 律 ,法规 , 决 不 将 客户 的 业务 数据 ,客户 信息 
透露 给 第 三 方 (依法 披露 除外 ) 。 

(3) 灾 备 中 心 将 严格 限制 和 控制 自己 的 职员 ,并 及 时 获得 客户 的 业务 信息 (包括 各 种 应 
用 和 业务 数据 报表、 传真 .文档 等 ) 。 

(4) 灾 备 中 心 将 对 访问 项 目 敏感 信息 的 职员 和 其 他 人 员 进 行 必要 的 培训 ,保证 其 拥有 
适当 的 技能 和 资质 ,保证 其 掌握 必要 的 信息 安全 管理 制度 和 安全 保密 意识 。 

(5) 灾 备 中 心 将 对 员工 实施 严格 的 考核 机 制 与 聘用 管理 ,从 员工 进入 灾 备 中 心 开始 到 
离开 灾 备 中 心 ,进行 全 程 监控 管理 。 
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9.3.3 物理 的 安全 


(1) 为 确保 灾 备 中 心 的 公共 安全 ,数据 中 心 与 附近 的 公安 联防 、 消 防 部 门 等 建立 密切 
联系 。 

(2) 灾 备 中 心 采用 有 效 的 全 区 域 实 时 监控 和 周 界 红外 线 报警 系统 及 110 联网 报警 系 
统 ,对 园区 实行 集中 监控 、7X24 小 时 保安 巡逻 ,全 面 保证 中 心 园区 物理 设施 的 安全 性 。 

(3) 灾 备 中 心 对 机 房 等 关键 区 域 采用 7X24 小 时 的 监控 录像 ,录像 数据 保留 一 年 。 

(4) 灾 备 中 心 园区 实行 严格 的 授权 准 入 制度 与 分 区 域 管理 制度 ,外 来 人 员 需 获得 授权 、 
并 在 内 部 人 员 陪同 下 ,才能 进入 园区 的 各 安全 管制 区 域 。 

(5) 灾 备 中 心 关键 区 域 和 机 房 实行 严格 的 门禁 系统 保护 的 准 入 制度 。 

(6) 灾 备 中 心 对 需 进 出 园区 或 机 房 的 设备 和 物品 履行 严格 的 核查 及 放行 手续 ,其 中 进 
出 机 房 的 设备 还 必须 获得 中 心 管理 层 的 审批 方 可 核查 与 放行 。 


9.3.4 安全 审核 


(1) 数据 中 心 将 通过 外 审 服务 的 选择 ,从 第 三 方 的 角度 去 检查 灾 备 中 心 的 安全 管理 
水 平 。 

(2) 数据 中 心 在 灾 备 中 心 内 部 成 立 专门 的 内 审 机 构 ,定期 对 中 心 运营 工作 进行 审核 , 确 
保 中 心 的 工作 能 符合 法 律 法规、 合约 以 及 客户 的 相关 要 求 。 

(3) 数据 中 心 会 配合 客户 聘请 或 指派 的 外 审 人 员 ,完成 对 灾 备 系统 管理 的 符合 性 检查 。 


任务 拓展 


1. 请 简要 介绍 运 维 体系 。 
2. 为 什么 我 们 需要 安全 运 维 ? 
3， 安全 运 维 需 要 注意 哪些 方面 ? 
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【和 任 务 日 标 
。 了解 云 计算 的 应 用 ; 


。 了 解 云 的 服务 模式 和 模型 ; 
。 了 解 云 灾 备 。 


(F 项 目 背景 


“ 云 技术 ?已 经 越 来 越 多 地 进入 人 们 的 工作 与 生活 。 专 家 预测 ,未 来 5 年 ,互联 网 和 通信 
方面 90% 的 新 业务 将 来 自 于 云 技术 。 


(名 项 目 描 述 





什么 是 云 ? 为 什么 云 技术 如 此 高 效 ? 我 们 应 该 怎么 去 使 用 云 ? 云 在 灾 备 系统 中 扮演 了 
一 个 什么 样 的 角色 ? 本章 将 会 就 以 上 问题 为 大 家 进行 解答 


(项 分 析 
通过 学 习 和 了 解 云 技术 ,为 将 来 的 云 架构 搭建 使用、 服务 储备 基础 知识 ,提高 对 云 计 算 
的 认识 。 
(四 项 目 实现 
通过 对 本 章 内 容 的 学 习 , 了 解 云 灾 备 的 架构 和 服务 方式 。 
10.1 云 计算 的 应 用 
10.1.1 云 物 联 


“ 物 联网 就 是 物 物 相连 的 互联 网 "。 这 有 两 层 意思 : 第 一 , 物 联网 的 核心 和 基础 仍然 是 
互联 网 ,是 在 互联 网 基础 上 的 延伸 和 扩展 的 网 络 ;第 二 ,其 用 户 端 延伸 和 扩展 到 了 任何 物品 
与 物品 之 间 进 行 信息 交换 和 通信 。 

物 联网 的 两 种 业务 模式 如 下 。 

(1) MAICM2M Application Integration) ， 即 内 部 MaaS 。 


(2) MaaS(M2M As A Service), MMO,Multi-Tenants( 多 租户 模型 ) 
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随 着 物 联 网 业务 量 的 增加 ,对 数据 存储 和 计算 量 的 需求 将 带 来 对 “ 云 计算 ”能 力 的 要 求 。 

(1) 云 计算 : 从 计算 中 心 到 数据 中 心 在 物 联 网 的 初级 阶段 ,PoP 即 可 满足 需求 。 

(2) 在 物 联 网 高 级 阶段 ,可 能 出 现 MVNO/MMO 营运 商 (国外 已 存在 多 年 ) ,需要 虚拟 
化 云 计 算 技 术 与 SOA 等 技术 的 结合 实现 互联 网 的 泛 在 服务 , 即 TaaS(Every Thing as a 


Service) 。 
10.1.2 云 安 全 


云 安 全 (Cloud Security) 是 一 个 从 “ 云 计算 ”演变 而 来 的 新 名 词 。 云 安全 的 策略 构想 是 : 
使 用 者 越 多 ,每 个 使 用 者 就 越 安全 ,因为 如 此 庞大 的 用 户 群 ,足以 覆盖 互联 网 的 每 个 角落 ,只 
要 某 个 网 站 被 挂 马 或 某 个 新 木马 病毒 出 现 ,就 会 立刻 被 截获 。 

“ 云 安全 ”通过 网 状 的 大 量 客户 端 对 网 络 中 软件 行为 的 异常 监测 ,获取 互联 网 中 木马 、 恶 
意 程序 的 最 新 信息 ,推送 到 Server 端 进行 自动 分 析 和 处 理 ,再 把 病毒 和 木马 的 解决 方案 分 
发 到 每 一 个 客户 端 。 

下 面 介绍 云 安全 的 10 种 方法 。 

1. 密码 优先 

通常 状态 下 ,任何 网 站 或 服务 器 的 用 户 名 和 密码 只 有 一 个 ,而 且 要 得 到 许可 。 理 由 很 简 
单 : 如 果 用 户 名 和 密码 都 是 同一 组 ,那么 当 其 中 一 个 被 盗 了 ,其 他 的 账户 也 暴露 了 。 

2. 检查 安全 问题 

在 设置 访问 权限 时 , 尽 可 能 绕 开 一 些 简 单 易 明白 的 问题 ,例如 QQ 头像 。 最 好 的 方法 是 
选择 一 个 问题 ,而 这 个 问题 的 答案 却 是 另 一 个 问题 的 答案 。 例 如 ,如 果 你 选择 的 问题 是 “小 
时 候 住 在 哪里 ”, 答 案 却 是 “黄色 ”之 类 的 不 关联 内 容 。 

3. 试用 加 密 方法 

不 管 这 样 的 方法 效果 如 何 ,不 可 否认 ,也 是 一 个 不 错 的 想法 。 加 密 软件 需要 来 自用 户 方 
面 的 努力 ,但 它 也 有 可 能 需要 你 去 抢夺 代码 凭证 ,加 大 使 用 成 本 。 

4. 管理 密码 

不 言 而 喻 ,你 有 很 多 的 用 户 名 和 密码 需要 管理 ,为 了 管理 它们 .要 有 应 用 程序 和 软件 来 
辅助 你 工作 。 

5. 双重 认证 

在 允许 用 户 访问 网 站 之 前 可 能 会 有 两 种 使 用 模式 。 因 此 除了 用 户 名 和 密码 之 外 ,唯一 
验证 码 也 是 必 不 可 少 的 。 这 一 验证 码 可 能 是 以 短信 的 形式 发 送 到 你 的 手机 上 ,然后 进行 登 
录 。 这 种 方式 的 优势 在 于 ,即使 你 的 凭证 丢 了 ,但 是 别人 没有 你 的 验证 码 , 也 是 登录 不 上 的 。 

6. 不 要 犹豫 ,立刻 备份 

当 涉 及 云 中 数据 保护 时 ,人 们 被 告知 在 物理 硬盘 上 要 进行 数据 备份 ,这 听 起 来 可 能 有 些 
奇怪 ,但 这 确实 是 需要 你 去 做 的 事 。 这 就 是 为 什么 需要 一 遍 一 遍 反 复 思 考 。 你 应 该 直接 在 
外 部 硬盘 上 备份 数据 ,并 随身 携带 。 

7. 完成 即 删除 

为 什么 有 无 限 的 数据 存储 选择 时 ,我 们 还 要 费时 间 去 做 删除 工作 呢 ? 原因 在 于 ,你 永远 
不 知道 有 多 少数 据 有 潜在 的 危险 。 如 果 来 自 于 某 家 银行 账户 的 邮件 或 警告 信息 时 间 太 长 ， 
已 经 失去 了 价值 ,那么 就 删除 它 。 
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8. 注意 登录 的 信息 

很 多 情况 下 ,我 们 都 会 在 别人 的 设备 上 登录 .但 是 我 们 通常 会 忘 了 这 样 就 有 可 能 会 保留 
自己 的 信息 ,从 而 存在 暴露 的 风险 。 

9. 使 用 反 病毒 、 反 间谍 软件 

尽管 是 云 数 据 ,但 使 用 这 一 方法 的 原因 在 于 你 第 一 次 从 系统 中 访问 云 。 因 此 ,如 果 系 统 
存在 风险 ,那么 你 的 在 线 数据 也 将 存在 风险 。 一 旦 你 忘记 加 密 , 那 么 键盘 监听 就 会 获得 你 的 
云 厂商 密码 ,最 终 你 将 失去 所 有 。 

10. 时 刻 都 要 管 住 自己 的 嘴巴 

永远 都 不 要 把 你 的 云 存 储 内 容 与 别人 共享 。 保 持 密码 的 秘密 性 是 必需 的 。 为 了 附加 的 
保护 功能 ,不 要 告诉 别人 你 使 用 的 所 有 厂商 。 


10.1.3 云 存储 


云 存储 是 在 云 计算 (Cloud Computing) 概 念 上 延伸 和 发 展 出 来 的 一 个 新 的 概念 ,是 指 通 
过 集群 应 用 、 网 格 技术 或 分 布 式 文件 系统 等 功能 .将 网 络 中 大 量 各 种 不 同类 型 的 存储 设备 通 
过 应 用 软件 集合 起 来 协同 工作 ,共同 对 外 提供 数据 存储 和 业务 访问 功能 的 一 个 系统 。 当 去 
计算 系统 运算 和 处 理 的 核心 是 大 量 数据 的 存储 和 管理 时 , 云 计算 系统 中 就 需要 配置 大 量 的 
存储 设备 ,那么 云 计算 系统 就 转变 成 为 一 个 云 存储 系统 ,所 以 云 存储 是 一 个 以 数据 存储 和 管 
理 为 核心 的 云 计 算 系统 。 
10.1.4 云游 戏 

云游 戏 是 以 云 计 算 为 基础 的 游戏 方式 ,在 云游 戏 的 运行 模式 下 ,所 有 游戏 都 在 服务 器 端 
运行 ,并 将 泻 染 完毕 后 的 游戏 画面 压缩 后 通过 网 络 传送 给 用 户 。 在 客户 端 ,用 户 的 游戏 设备 
不 需要 任何 高 端 处 理 器 和 显卡 ,只 需要 基本 的 视频 解压 能 力 就 可 以 了 。 就 现今 来 说 ,云游 戏 
并 没有 成 为 家 用 机 和 掌 机 界 的 联网 模式 。 但 是 在 若干 年 以 后 , 云 计算 取代 这 些 东西 成 为 其 
网 络 发 展 的 终极 方向 的 可 能 性 很 大 。 如 果 这 种 构想 能 成 为 现实 ,那么 主机 厂商 将 变 成 网 络 
运营 商 ,他 们 不 需要 不 断 投入 巨额 的 新 主机 研发 费用 ,而 只 需要 拿 这 笔 钱 中 的 很 小 一 部 分 去 
升级 自己 的 服务 器 就 行 了 ,但 是 达到 的 效果 却 是 相差 无 几 的 。 对 于 用 户 来 说 ,他 们 可 以 省 下 
购买 主机 的 开支 ,但 是 得 到 的 却 是 顶尖 的 游戏 画面 (当然 视频 输出 方面 的 硬件 必须 过 硬 ) 。 


10.1.5 云 计算 


从 技术 上 看 ,大 数据 与 云 计算 的 关系 就 像 一 枚 硬币 的 正面 和 反面 一 样 密 不 可 分 。 大 数 
据 必然 无 法 用 单 台 的 计算 机 进行 处 理 , 必 须 采 用 分 布 式 计算 架构 。 它 的 特色 在 于 对 海量 数 
据 的 挖掘, 但 它 必须 依托 云 计算 的 分 布 式 处 理 , 分 布 式 数据 库 、 云 存储 。 


10.1.6 私有 云 


私有 云 (Private Cloud) 是 将 云 基础 设施 与 软 硬 件 资源 创建 在 防火 墙 内 ,以 供 机 构 或 企 
业内 各 部 门 共 享 数据 中 心 内 的 资源 。 创 建 私有 云 ,除了 硬件 资源 外 ,一 般 还 有 云 设备 (TaaS) 
软件 。 现 时 商业 软件 有 VMware 的 vSphere 和 Platform Computing 的 ISF。 开 放 源 代码 的 
云 设 备 软件 主要 有 Eucalyptus 和 OpenStack 。 
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10.1.7 云 教育 


视频 云 计算 应 用 在 教育 行业 的 实例 : 流 媒体 平台 采用 分 布 式 架构 部 署 ,分 为 Web 服务 
器 ,数据 库 服 务 器 、 直 播 服务 器 和 流 服 务 器 ,如 有 必要 可 在 信息 中 心 架设 采集 工作 站 搭建 网 
络 电视 或 实况 直播 应 用 ,在 各 个 学 校 已 经 部 署 录 播 系 统 或 直播 系统 的 教室 配置 流 媒体 功能 
组 件 , 这 样 录 播 实况 可 以 实时 传送 到 流 媒 体 平台 管理 中 心 的 全 局 直播 服务 器 上 ,同时 录 播 的 
学 校本 色 课件 也 可 以 上 传 存储 到 金山 区 教育 局 信息 中 心 的 流 存 储 服务 器 上 ,方便 今后 的 检 
索 \ 点 播 . 评 估 等 各 种 应 用 。 


10.1.8 云 会 议 


云 会 议 是 基于 云 计 算 技术 的 一 种 高 效 、 便 捷 、 低 成 本 的 会 议 形式 。 使 用 者 只 需要 通过 互 
联网 界面 进行 简单 易 用 的 操作 , 便 可 快速 高 效 地 与 全 球 各 地 团队 及 客户 同步 分 享 语音 、 数 据 
文件 及 视频 ,而 会 议 中 数据 的 传输 ,处 理 等 复杂 技术 由 云 会 议 服务 商 帮助 使 用 者 进行 操作 。 

目前 国内 云 会 议 主要 集中 在 以 SAAS( 软 件 即 服务 ) 模 式 为 主体 的 服务 内 容 , 包 括 电 话 、 
网 络 ,视频 等 服务 形式 ,基于 云 计 算 的 视频 会 议 就 叫 云 会 议 。 云 会 议 是 视频 会 议 与 云 计 算 的 
完美 结合 , 带 来 了 最 便捷 的 远程 会 议 体验 。 及 时 与 移动 去 电话 会 议 , 是 云 计算 技术 与 移动 互 
联网 技术 的 完美 融合 ,可 以 通过 移动 终端 进行 简单 的 操作 ,从 而 可 以 随时 随地 高 效 地 召集 和 
管理 会 议 


10.1.9 云 社交 


云 社交 (Cloud Social) 是 一 种 物 联网 、 云 计算 和 移动 互联 网 交互 应 用 的 虚拟 社交 应 用 模 
式 , 以 建立 著名 的 “资源 分 享 关系 图 谱 ” 为 目的 ,进而 开展 网 络 社交 , 云 社交 的 主要 特征 ,就 是 
把 大 量 的 社会 资源 统一 整合 和 评测 ,构成 一 个 资源 有 效 池 , 向 用 户 按 需 提供 服务 。 参 与 分 享 
的 用 户 越 多 ,能 够 创造 的 利用 价值 就 越 大 。 


10.2 云 的 三 种 服务 模式 和 四 种 服务 模型 


10.2.1 云 服 务 的 模式 


云 计算 可 以 认为 包括 以 下 几 个 层次 的 服务 : 基础 设施 级 服务 (IaaS) ,平台 级 服务 
(PaaS) 和 软件 级 服务 (SaaS)。 这 里 所 谓 的 层次 ,是 分 层 体系 架构 意义 上 的 “层次 ”。IaaS、 
PaaS、SaaS 分 别 在 基础 设施 层 、 软 件 开放 运行 平台 层 和 应 用 软件 层 实 现 。 

1. Jaas 

IaaS(Infrastructure as a Service) : 基础 设施 即 服务 ,消费 者 通过 Internet 可 以 从 完善 
的 计算 机 基础 设施 获得 服务 。IaaS 是 把 数据 中 心 .基础 设施 等 硬件 资源 通过 Web 分 配给 用 
户 的 商业 模式 。 

2. PaaS 

PaaS(Platform as a Service) : 平台 即 服务 。PaaS 实际 上 是 指 将 软件 研发 的 平台 作为 
一 种 服务 ,以 SaaS 的 模式 提交 给 用 户 。 因 此 ,PaaS 也 是 SaaS 模式 的 一 种 应 用 。 但 是 ,PaaS 
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的 出 现 可 以 加 快 SaaS 的 发 展 ,尤其 是 加 快 SaaS 应 用 的 开发 速度 。PaaS 服务 使 得 软件 开发 
人 员 可 以 在 不 购买 服务 器 等 设备 环境 的 情况 下 开发 新 的 应 用 程序 。 

3. SaaS 

SaaS(Software as a Service) : 软件 即 服 务 。 它 是 一 种 通过 Internet 提供 软件 的 模式 ， 
用 户 无 须 购买 软件 ,而 是 向 提供 商 租 用 基于 Web 的 软件 来 管理 企业 经 营 活动 。 

SaaS 模式 大 大 降低 了 软件 ,尤其 是 大 型 软件 的 使 用 成 本 ,并 且 由 于 软件 是 托管 在 服务 
商 的 服务 器 上 降低 了 客户 的 管理 维护 成 本 ,可 靠 性 也 更 高 。 


10.2.2 云 服务 的 部 署 模型 


1. 公有 云 

公有 云 通 常 指 第 三 方 提供 商 为 用 户 提 供 的 能 够 使 用 的 云 。 公 有 云 一 般 可 通过 Internet 
使 用 ,可 能 是 免费 或 成 本 低廉 的 。 公 有 云 的 核心 属性 是 共享 资源 服务 。 这 种 云 有 许多 实例 ， 
可 在 当今 整个 开放 的 公有 网 络 中 提供 服务 。 例 如 ,中 国 移动 、 中 国联 通 、 中 国电 信 、IDC 运营 
商 、 亚 马 逊 .IJBM ,Joyent、Rackspaces 等 。 

在 此 种 模式 下 ,应 用 程序 .资源 .存储 和 其 他 服务 ,都 由 云 服 务 供应 商 来 提供 给 用 户 ,这 
些 服务 大 部 分 都 是 免费 的 ,也 有 部 分 按 需 按 使 用 量 来 付费 ,这 种 模式 只 能 使 用 互联 网 来 访问 
和 使 用 。 同 时 ,这 种 模式 在 私人 信息 和 数据 保护 方面 也 比较 有 保证 。 这 种 部 署 模型 通常 都 
可 以 提供 可 扩展 的 云 服务 并 能 高 效 设置 。 

2. 私有 云 

私有 云 (Private Clouds) 是 为 一 个 客户 单独 使 用 而 构建 的 ,因而 提供 对 数据 .安全 性 和 
服务 质量 的 最 有 效 控制 。 该 公司 拥有 基础 设施 ,并 可 以 控制 在 此 基础 设施 上 部 署 应 用 程序 
的 方式 。 私 有 云 可 部 署 在 企业 数据 中 心 的 防火 墙 内 ,也 可 以 将 它们 部 署 在 一 个 安全 的 主机 
托管 场所 ,私有 云 的 核心 属性 是 专 有 资源 。 

这 种 云 基础 设施 专门 为 某 一 个 企业 服务 ,不 管 是 自己 管理 还 是 第 三 方 管理 ,自己 负责 还 
是 第 三 方 托管 都 可 以 。 只 要 使 用 的 方式 没有 问题 ,就 能 为 企业 带 来 很 显著 的 帮助 。 

不 过 这 种 模式 所 要 面临 的 纠正 、 检 查 等 安全 问题 则 需 企 业 自 己 负 责 ,否则 出 了 问题 也 只 
能 自己 承担 后 果 , 此 外 ,整套 系统 也 需要 自己 出 钱 购 买 . 建 设 和 管理 。 这 种 云 计 算 模 式 可 产 
生 非 常 广泛 的 正面 效益 ,从 模式 的 名 称 也 可 以 看 出 , 它 可 以 为 所 有 者 提供 具备 充分 优势 和 功 
能 的 服务 。 

私有 云 的 特点 如 下 。 

(1) 数据 安全 

虽然 每 个 公有 云 的 提供 商都 对 外 宣称 ,其 服务 在 各 方面 都 是 非常 安全 ,特别 是 对 数据 的 
管理 。 但 是 对 企业 而 言 ,特别 是 大 型 企业 而 言 ,与 业务 有 关 的 数据 是 其 生命 线 , 不 能 受到 任 
何 形式 的 威胁 ,所 以 短期 而 言 ,大 型 企业 是 不 会 将 其 Mission-Critical 的 应 用 放 到 公有 云 上 
运行 的 。 而 私有 云 在 这 方面 是 非常 有 优势 的 ,因为 它 一 般 都 构筑 在 防火 墙 后 。 

(2) SLA( 服 务 质量 ) 

因为 私有 云 一 般 在 防火 墙 之 后 ,而 不 是 在 某 一 个 遥远 的 数据 中 心 内 ,所 以 当 公 司 员工 访 
问 那 些 基 于 私有 云 的 应 用 时 , 它 的 SLA 应 该 会 非常 稳定 ,不 会 受到 网 络 不 稳定 的 影响 ,比如 
上 次 “暴风 影音 "事件 就 导致 了 大 规模 的 断 网 。 
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(3) 充分 利用 现 有 硬件 资源 和 软件 资源 

大 家 知道 许多 大 公司 都 会 有 很 多 legacy 的 应 用 ,而 且 legacy 大 多 都 是 其 核心 应 用 。 虽 
然 公有 云 的 技术 很 先进 ,但 对 legacy 应 用 的 支持 并 不 理想 ,因为 这 些 应 用 很 多 都 是 用 静态 
语言 编写 的 ,以 Cobol、C、C++ 和 Java 为 主 , 而 现 有 的 公有 云 对 这 些 语言 支持 很 一 般 。 但 私 
有 云 在 这 方面 就 不 错 ,比如 IBM 推出 的 CloudBurst, 通 过 CloudBurst, 能 非常 方便 地 构建 基 
于 Java 的 私有 云 。 而 且 一 些 私 有 云 的 工具 能 够 利用 企业 现 有 的 硬件 资源 来 构建 云 ,这 样 将 
极 大 降低 企业 的 成 本 。 

(4) 不 影响 现 有 IT 管理 的 流程 

对 大 型 企业 而 言 ,流程 是 其 管理 的 核心 ,如 果 没 有 完善 的 流程 ,企业 将 会 成 为 一 盘 散 沙 。 
不 仅 与 业务 有 关 的 流程 非常 繁多 ,而 且 IT 部 门 的 流程 也 不 少 ,比如 那些 和 Sarbanes-Oxley 
相关 的 流程 ,并 且 这 些 流 程 对 IT 部 门 非常 关键 。 在 这 一 方面 ,公有 云 会 很 吃亏 ,因为 假如 
使 用 公有 云 ,将 会 对 IT 部 门 流程 有 很 多 的 冲击 ,比如 在 数据 管理 方面 和 安全 规定 等 方面 。 
而 私有 云 因为 一 般 在 防火 墙 内 ,所 以 对 IT 部 门 流程 冲击 不 大 。 

3. 社区 云 

“社区 云 " 是 大 的 “公有 云 ” 范 畴 内 的 一 个 组 成 部 分 ,是 指 在 一 定 的 地 域 范围 内 ,由 云 计 算 
服务 提供 商 统 一 提供 计算 资源 、 网 络 资 源 、 软 件 和 服务 能 力 所 形 成 的 云 计算 形式 。 即 基于 社 
区 内 的 网 络 互联 优势 和 技术 易于 整合 等 特点 ,通过 对 区 域内 各 种 计算 能 力 进行 统一 服务 形 
式 的 整合 ,结合 社区 内 的 用 户 需求 共性 ,实现 面向 区 域 用 户 需求 的 云 计 算 服 务 模式 。 

社区 云 是 一 些 由 有 着 类 似 需 求 并 打算 共享 基础 设施 的 组 织 共同 创立 的 云 ,社区 云 的 目 
的 是 实现 云 计算 的 一 些 优 势 。 由 于 社区 云 的 用 户 数 比 公有 云 少 ,这 种 选择 往往 比 公 有 云贵 ， 
但 隐私 度 安 全 性 和 政策 遵从 都 比 公有 云 高 。 

“社区 云 会 是 大 的 云 计算 的 互联 世界 里 非常 富有 活力 的 组 成 部 分 ,我 们 可 以 把 它 生动 地 
理解 为 云 朱 ，。 每 一 个 云 打 都 基于 云 计算 技术 实现 ,实现 了 资源 的 共享 ,服务 的 统一 ,但 同 
时 每 一 个 云 打 都 具有 自己 鲜明 的 特征 ,比如 区 域 特色 ,也 可 能 是 行业 特点 。' 社 区 云 通 过 更 
大 范围 的 互联 ,成 为 云 计算 世界 里 的 组 成 部 分 。 基 于 “社区 云 的 先进 架构 设计 ,结合 下 一 代 
互联 网 的 便利 ,我 们 会 非常 便利 地 提取 出 ' 云 打 ’ 的 优势 服务 ,为 更 大 范围 内 的 相似 用 户 提供 
服务 .” 这 段 由 冉 雨 先生 在 2011 年 初 的 深圳 YOCSEF 研讨 会 上 的 发 言 ,生动 地 描述 了 “社区 
云 ” 的 概念 ,特点 和 未 来 的 发 展 方向 。 

社区 云 具有 如 下 特点 : 

@ 区 域 型 和 行业 性 ; 

@ 有 限 的 特色 应 用 ; 

@ 资源 的 高 效 共 享 ; 

@ 社区 内 成 员 的 高 度 参与 性 。 

4. 混合 云 

合 云 融合 了 公有 云 和 私有 云 ,是 近年 来 云 计算 的 主要 模式 和 发 展 方向 。 我 们 已 经 知 
道 私有 云 主 要 是 面向 企业 用 户 , 出 于 安全 考虑 ,企业 更 愿意 将 数据 存放 在 私有 云 中 ,但 是 同 
时 又 希望 可 以 获得 公有 云 的 计算 资源 ,在 这 种 情况 下 混合 云 被 越 来 越 多 的 企业 采用 , 它 将 公 
有 云 和 私有 云 进行 混合 和 匹配 ,以 获得 最 佳 的 效果 ,这 种 个 性 化 的 解决 方案 ,达到 了 既 省 钱 
又 安全 的 目的 。 
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混合 云 是 两 种 或 两 种 以 上 的 云 计算 模式 的 混合 体 ,如 公有 云 和 私有 云 混 合 。 它 们 相互 
独立 ,但 在 云 的 内 部 又 相互 结合 ,可 以 发 挥 出 所 混合 的 多 种 云 计算 模型 各 自 的 优势 。 

混合 云 特点 如 下 。 

(1) 更 完美 

私有 云 的 安全 性 是 超越 公有 云 的 ,而 公有 云 的 计算 资源 又 是 私有 云 无 法 企及 的 。 在 这 
种 矛盾 的 情况 下 ,混合 云 完美 地 解决 了 这 个 问题 , 它 既 可 以 利用 私有 云 的 安全 ,将 内 部 重要 
数据 保存 在 本 地 数据 中 心 ; 同 时 也 可 以 使 用 公有 云 的 计算 资源 ,更 高 效 快捷 地 完成 工作 , 相 
比 私 有 云 或 是 公有 云 都 更 完美 。 

(2) 可 扩展 

混合 云 突 破 了 私有 云 的 硬件 限制 ,利用 公有 云 的 可 扩展 性 ,可 以 随时 获取 更 高 的 计算 能 
力 。 企 业 通过 把 非 机 密 功 能 移动 到 公有 云 区 域 , 可 以 降低 对 内 部 私有 云 的 压力 和 需求 。 

(3) 更 节省 

混合 云 可 以 有 效 地 降低 成 本 。 它 既 可 以 使 用 公有 云 又 可 以 使 用 私有 云 ,企业 可 以 将 应 
用 程序 和 数据 放 在 最 适合 的 平台 上 ,获得 最 佳 的 利益 组 合 。 


10.3 云 灾 备 介绍 


10.3.1 云 灾 备 的 概念 


云 灾 备 将 灾 备 看 作 是 一 种 服务 ,由 客户 付费 使 用 灾 备 服务 ,提供 商 提 供 灾 备 的 服务 模 
式 。 采 用 这 种 模式 ,客户 可 以 利用 服务 提供 商 的 优势 技术 资源 ,丰富 的 灾 备 项 目 经 验 和 成 熟 
的 运 维 管理 流程 ,快速 实现 用 户 的 灾 备 目标 ,降低 客户 的 运 维 成 本 和 工作 强度 ,同时 也 降低 
灾 备 系统 的 总 体 拥有 成 本 。 


10.3.2 云 灾 备 服务 详情 


云 灾 备 服务 是 采用 当前 最 先进 、 安 全 、 可 靠 的 数据 备份 和 数据 复制 技术 ,建设 可 管理 ,可 
运营 的 灾 备 服务 ,为 企 事业 单位 、 政 府 部 门 提供 不 同等 级 的 同城 或 异地 灾 备 服务 ,以 保证 在 
灾难 发 生 后 能 够 快速 、 准 确 地 恢复 客户 的 业务 数据 和 关键 应 用 系统 ,保障 客户 业务 的 连续 运 
行 。 此 外 , 灾 备 服务 可 进一步 降低 企 事业 单位 、 政 府 部 门 的 信息 化 成 本 ,并 为 政府 层面 监督 
管理 和 宏观 决策 提供 平台 和 工具 支撑 。 


10.3.3 云 灾 备 的 服务 类 型 


1. 数据 级 灾 备 
数据 级 灾 备 的 关注 点 在 于 数据 , 即 灾难 发 生 后 , 灾 备 服务 平台 依靠 基于 网 络 的 数据 复制 
工具 ,实现 生产 中 心 和 灾 备 中 心 之 间 的 异步 /同步 的 数据 传输 ,可 以 确保 客户 原 有 的 业务 数 
据 不 遭 破坏 。 
2. 应 用 级 容 灾 
在 数据 级 灾 备 的 基础 上 构建 应 用 级 灾 备 系统 ,具备 应 用 系统 接管 能 力 , 即 在 异地 灾 备 中 
心 再 构建 一 套 支 撑 系 统 、 备 用 网 络 系统 等 部 分 。 当 生产 环境 发 生 故 障 时 , 灾 备 中 心 可 以 接管 
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应 用 继续 运行 ,减少 系统 宕 机 时 间 , 保 证 业务 的 连续 性 。 
10.3.4 云 灾 备 服务 优势 


(1) 建设 机 制 : 从 建设 简化 为 采购 。 

(2) 业务 实现 难 易 度 : 按 需 采购 , 即 购 即 用 ,系统 可 靠 运 行 。 

(3) 可 升级 和 可 迁移 性 : 按 需 调整 ,随时 可 以 升级 或 迁移 , 随 着 企业 的 发 展 设备 可 以 方 
便 地 降级 重复 利用 ,大 大 节约 系统 升级 费 。 

(4) 成 本 问题 : 购买 即 可 使 用 ,运行 成 本 低 ,维护 简单 ,而 且 有 运营 商 和 厂商 的 服务 
保障 。 

(5) 任何 用 户 都 可 采用 。 


10.3.5 基于 云 灾 备 的 数据 安全 存储 关键 技术 


使 用 云 存储 系统 提供 的 第 三 方 云 灾 备 服务 以 其 成 本 低 、 弹 性 架构 、 低 接 入 门槛 的 特点 逐 
渐 得 到 政府 \ 企 业 以 及 个 人 用 户 的 关注 。 但 是 由 于 云 灾 备 服务 的 安全 性 和 第 三 方 的 可 信 性 
问题 ,目前 的 云 存 储 仅 开 展 了 个 人 用 户 的 在 线 备份 服 务 , 目 前 多 个 地 市 、 州 政府 已 经 开始 筹 
建 能 提供 海量 数据 灾 备 的 服务 。 总 的 来 说 ,基于 云 灾 备 服务 的 研究 主要 面临 以 下 问题 。 

(1) 数据 机 密 性 与 重复 数据 删除 的 矛盾 

目前 的 云 灾 备 服务 为 了 保证 多 用 户 间 重复 数据 删除 的 效率 ,用 户 和 云 存储 系统 间 传 输 
和 存储 的 都 是 明文 数据 ,因此 第 三 方 环境 中 数据 的 机 密 性 是 云 灾 备 数据 安全 存储 中 用 户 最 
为 关心 的 一 个 问题 ,即使 用 户 对 数据 进行 了 加 密 处 理 , 存 储 在 第 三 方 透明 环境 中 的 数据 将 无 
法 有 效 地 进行 数据 重 删 ,尤其 当 系统 中 存储 的 为 高 宛 余 度 的 灾 备 数据 存储 空间 利用 率 将 无 
法 得 到 保障 ,因此 ,数据 的 机 密 性 与 云 灾 备 服务 的 存储 空间 利用 率 的 矛盾 将 成 为 云 灾 备 服务 
发 展 面临 的 最 主要 矛盾 。 

(2) 缺乏 全 存储 周期 的 完整 性 检查 手段 

云 灾 备 系统 的 不 透明 性 增 大 了 用 户 对 于 数据 完整 性 检查 的 需求 。 但 是 目前 的 云 存储 系 
统 数据 完整 性 检查 都 集中 关注 于 用 户 的 云 存 储 系统 交互 时 的 数据 完整 性 检查 ,在 数据 存储 
阶段 缺乏 有 效 的 完整 性 检查 方法 。 同 时 对 于 数据 完整 性 检查 的 另 一 个 重点 , 即 数据 的 非 授 
权 的 改动 方面 ,目前 仅仅 使 用 存储 系统 中 的 权 管理 手段 进行 ,无 法 有 效 地 隔离 共享 式 存储 环 
境 中 不 同 用户 的 数据 访问 以 及 恶意 用 户 或 系统 管理 员 针对 数据 的 非法 访问 。 

(3) 缺乏 应 用 层 的 数据 可 用 人 性 保护 手段 

数据 恢复 是 业务 连续 性 计划 最 重要 的 一 环 ,尽管 在 传统 的 存储 环境 中 对 于 可 生存 存储 
技术 和 容错 技术 的 研究 已 经 十 分 成 熟 ,但 是 使 用 云 存储 系统 搭建 的 数据 容 灾 系 统 中 数据 的 
可 用 性 保护 使 用 最 多 的 仍然 是 数据 副本 宛 余 技术 。 同 时 ,在 云 存储 环境 下 的 数据 安全 存储 
关键 技术 的 可 用 性 , 尽 在 低层 次 的 物理 设备 层次 进行 数据 元 余 ,缺乏 更 高 层次 的 能 够 让 用 户 
信任 的 数据 可 用 性 技术 。 

(4) 缺乏 统一 数据 安全 管理 手段 

当前 的 云 存 储 系统 为 用 户 提供 数据 存储 服务 时 ,数据 的 机 密 性 、 完 整 性 、 可 用 性 通过 不 
同 的 数据 安全 策略 来 保证 。 这 些 策略 分 别 使 用 不 同 的 参数 和 不 同 的 算法 对 数据 进行 处 理 ， 
目前 没有 一 个 统一 的 基于 云 灾 备 的 数据 安全 存储 模型 能 够 同时 兼顾 数据 机 密 性 、 完 整 性 、 可 
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用 性 。 同 时 ,相关 的 技术 研究 缺乏 从 用 户 和 云 灾 备 服务 商 两 者 对 于 安全 性 的 需求 角度 进行 
构造 的 灾 备 数据 安全 存储 架构 。 


10.4 Google 云 计算 原理 介绍 


Google 拥有 全 球 最 强大 的 搜索 引擎 。 除 了 搜索 业务 以 外 ,Google 还 有 Google Maps、 
Google Earth、Gmail、YouTube 等 各 种 业务 ,包括 刚 诞 生 的 Google Wave。 这 些 应 用 的 共性 
在 于 数据 量 巨 大 ,而 且 要 面向 全 球 用 户 提 供 实时 服务 ,因此 Google 必须 解决 海量 数据 存储 
和 快速 处 理 问 题 。Google 的 诀窍 在 于 它 发 展 出 简单 而 又 高 效 的 技术 ,让 多 达 百 万 台 的 廉价 
计算 机 协同 工作 ,共同 完成 这 些 前 所 未 有 的 任务 ,这 些 技术 是 在 诞生 几 年 之 后 才 被 命名 为 
Google 云 计算 技术 。Google 云 计算 技术 具体 包括 : Google 文件 系统 GFS、 分 布 式 计算 编 
程 模型 MapReduce、 分 布 式 锁 服 务 Chubby 和 分 布 式 结构 化 数据 存储 系统 Bigtable 等 。 其 
中 ,GFS 提供 了 海量 数据 的 存储 和 访问 的 能 力 ,MapReduce 使 得 海量 信息 的 并 行 处 理 变 得 
简单 易 行 ,Chubby 保证 了 分 布 式 环境 下 并 发 操作 的 同步 问题 ,Bigtable 使 得 海量 数据 的 管 
理 和 组 织 十 分 方便 。 本 节 对 这 四 种 核心 技术 进行 详细 介绍 。 


10.4.1 Google 文件 系统 GFS 


Google 文件 系统 (Google File System,GFS) 是 一 个 大 型 的 分 布 式 文件 系统 。 它 为 
Google 云 计算 提供 海量 存储 ,并 且 与 Chubby、MapReduce 以 及 Bigtable 等 技术 结合 十 分 紧 
密 , 处 于 所 有 核心 技术 的 底层 。 由 于 GFS 并 不 是 一 个 开源 的 系统 ,我 们 仅仅 能 从 Google 公 
布 的 技术 文档 来 获得 一 点 了 解 ,而 无 法 进行 深入 的 研究 。 

当前 主流 分 布 式 文件 系统 有 RedHat 的 GFS(Global File System) ,IBM 的 GPFS、Sun 
的 Lustre 等 。 这 些 系统 通常 用 于 高 性 能 计算 或 大 型 数据 中 心 , 对 硬件 设施 要 求 较 高 。 以 
Lustre 文件 系统 为 例 , 它 只 对 元 数据 管理 器 MDS 提供 容错 解决 方案 ,而 对 于 具体 的 数据 存 
储 节点 OST 来 说 , 则 依赖 其 自身 来 解决 容错 的 问题 。 例 如 ,Lustre 推荐 OST 节点 采用 
RAID 技术 或 SAN 存储 区 域 网 来 容错 ,但 由 于 Lustre 自身 不 能 提供 数据 存储 的 容错 ,一 旦 
OST 发 生 故 障 就 无 法 恢复 ,因此 对 OST 的 稳定 性 就 提出 了 相当 高 的 要 求 ,从 而 大 大 增加 了 
存储 的 成 本 ,而 且 成 本 会 随 着 规模 的 扩大 线性 增长 。 

正如 李开复 所 说 的 那样 ,创新 固然 重要 ,但 有 用 的 创新 更 重要 。 创 新 的 价值 取决 于 一 项 
创新 在 新 颖 ,有 用 和 可 行 性 这 三 个 方面 的 综合 表现 。Google GFS 的 新 颖 之 处 并 不 在 于 它 采 
用 了 多 么 令 人 惊讶 的 技术 ,而 在 于 它 采 用 廉价 的 商用 机 器 构建 分 布 式 文件 系统 ,同时 将 
GFS 的 设计 与 Google 应 用 的 特点 紧密 结合 ,并 简化 其 实现 ,使 之 可 行 ,最 终 达 到 创意 新 颖 、 
有 用 、 可 行 的 完美 组 合 。GFS 使 用 廉价 的 商用 机 器 构建 分 布 式 文件 系统 ,将 容错 的 任务 交 
由 文件 系统 来 完成 ,利用 软件 的 方法 解决 系统 可 靠 性 问题 ,这 样 可 以 使 得 存储 的 成 本 成 倍 下 
降 。 由 于 GFS 中 服务 器 数目 众多 ,在 GFS 中 服务 器 死机 是 经 常 发 生 的 事情 ,甚至 都 不 应 当 
将 其 视 为 异常 现象 ,那么 如 何在 频繁 的 故障 中 确保 数据 存储 的 安全 ,保证 提供 不 间断 的 数据 
存储 服务 是 GFS 最 核心 的 问题 。GFS 的 精彩 在 于 它 采 用 了 多 种 方法 ,从 多 个 角度 并 使 用 
不 同 的 容错 措施 来 确保 整个 系统 的 可 靠 性 。 
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10.4.2 系统 架构 


GFS 的 系统 架构 如 图 10-1 所 示 ,GFS 将 整个 系统 的 节点 分 为 三 类 角色 : Client( 客 户 
端 ) 、Master( 主 服务 器 ) 和 Chunk Server( 数 据 块 服务 器 )。Client 是 GFS 提供 给 应 用 程序 
的 访问 接口 , 它 是 一 组 专用 接口 ,不 遵守 POSIX 规范 ,以 库 文件 的 形式 提供 。 应 用 程序 直接 
调用 这 些 库 函数 ,并 与 该 库 链 接 在 一 起 。Master 是 GFS 的 管理 节点 ,在 逻辑 上 只 有 一 个 ， 
它 保存 系统 的 元 数据 ,负责 整个 文件 系统 的 管理 ,是 GFS 文件 系统 中 的 大 脑 。Chunk 
Server 负责 具体 的 存储 工作 。 数 据 以 文件 的 形式 存储 在 Chunk Server 上 ,Chunk Server 的 
个 数 可 以 有 多 个 , 它 的 数目 直接 决定 了 GFS 的 规模 。GFS 将 文件 按照 固定 大 小 进行 分 块 ， 
默认 是 64MB, 每 一 块 称 为 一 个 Chunk (数据 块 ), 每 个 Chunk 都 有 一 个 对 应 的 索引 号 
(Index) 。 





应 用 程序 | (文件 名 ,Chunk 索 引 ) GFS 主 服务 器 ,= /foo/bar 
GFS 客 户 端 文件 命名 空间 /|chunk 2ef0 


(Chunk 句 柄 / 
Chunk 位 置 ) 个 这 标注 : 
-> 数据 信息 


向 数据 块 服务 器 发 出 指令 一 一 控制 信息 
数据 块 服务 器 状态 


GFS 数 据 块 服务 器 GFS 数 据 块 服务 器 
Chunk 数 据 Linux 文 件 系 统 Linux 文 件 系 统 


lele . 


10-1 GFS 体系 结构 





















































(Chunk 旬 柄 , 字 节 范围 ) 


























客户 端 在 访问 GFS 时 ,首先 访问 Master 节点 ,获取 将 要 与 之 进行 交互 的 Chunk Server 
信息 ,然后 直接 访问 这 些 Chunk Server 并 完成 数据 的 存 取 。GFS 的 这 种 设计 方法 实现 了 控 
制 流 和 数据 流 的 分 离 。Client 与 Master 之 间 只 有 控制 流 , 而 无 数据 流 , 这 样 就 极 大 地 降低 
了 Master 的 负载 ,使 之 不 成 为 系统 性 能 的 一 个 瓶颈 。Client 与 Chunk Server 之 间 直 接 传 
输 数 据 流 ,同时 由 于 文件 被 分 成 多 个 Chunk 进行 分 布 式 存储 ,Client 可 以 同时 访问 多 个 
Chunk Server, 从 而 使 得 整个 系统 1/O 高 度 并 行 ,系统 整体 性 能 得 到 提高 。 

相对 于 传统 的 分 布 式 文件 系统 ,GFS 针对 Google 应 用 的 特点 从 多 个 方面 进行 了 简化 ， 
从 而 在 一 定 规模 下 达到 成 本 、 可 靠 性 和 性 能 的 最 佳 平衡 。 具 体 来 说 , 它 具 有 以 下 几 个 特点 。 

1. 采用 中 心服 务 器 模式 

GFS 采用 中 心服 务 器 模式 来 管理 整个 文件 系统 ,可 以 大 大 简化 设计 ,从 而 降低 实现 难 
度 。Master 管理 了 分 布 式 文件 系统 中 的 所 有 元 数据 。 文 件 划分 为 Chunk 进行 存储 ,对 于 
Master 来 说 ,每 个 Chunk Server 只 是 一 个 存储 空间 。Client 发 起 的 所 有 操作 都 需要 先 通过 
Master 才能 执行 。 这 样 做 有 许多 好 处 .增加 新 的 Chunk Server 是 一 件 十 分 容易 的 事情 ， 
Chunk Server 只 需要 注册 到 Master 上 即 可 ,Chunk Server 之 间 无 任何 关系 。 如 果 采 用 完 
全 对 等 的 .无 中 心 的 模式 ,那么 如 何 将 Chunk Server 的 更 新 信息 通知 到 每 一 个 Chunk 
Server, 会 是 设计 的 一 个 难点 ,而 这 也 将 在 一 定 程度 上 影响 系统 的 扩展 性 。Master 维护 了 一 
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个 统一 的 命名 空间 ,同时 掌握 了 整个 系统 内 Chunk Server 的 情况 , 据 此 可 以 实现 整个 系统 
范围 内 数据 存储 的 负载 均衡 。 由 于 只 有 一 个 中 心服 务 器 ,元 数据 的 一 致 性 问题 自然 解决 。 
当然 ,中 心服 务 器 模式 也 带 来 一 些 固 有 的 缺点 ,比如 极 易 成 为 整个 系统 的 瓶颈 等 。GFS 采 
用 多 种 机 制 来 避免 Master 成 为 系统 性 能 和 可 靠 性 上 的 瓶颈 ,如 尽量 控制 元 数据 的 规模 、 对 
Master 进行 远程 备份 .控制 信息 和 数据 分 流 等 。 

2. 不 缓存 数据 

缓存 机 制 是 提升 文件 系统 性 能 的 一 个 重要 手段 ,通用 文件 系统 为 了 提高 性 能 ,一般 需 要 
实现 复杂 的 缓存 (Cache) 机 制 。GFS 文件 系统 根据 应 用 的 特点 ,没有 实现 缓存 ,这 是 从 必要 
性 和 可 行 性 两 方面 考虑 的 。 从 必要 性 上 讲 ,客户 端 大 部 分 是 流 式 顺 序 读 写 ,并 不 存在 大 量 的 
重复 读 写 ,缓存 这 部 分 数据 对 系统 整体 性 能 的 提高 作用 不 大 ;而 对 于 Chunk Server, 由 于 
GFS 的 数据 在 Chunk Server 上 以 文件 的 形式 存储 ,如 果 对 某 块 数据 读 取 频繁 ,本 地 的 文件 
系统 自然 会 将 其 缓存 。 从 可 行 性 上 讲 , 如 何 维护 缓存 与 实际 数据 之 间 的 一 致 性 是 一 个 极其 
复杂 的 问题 ,在 GFS 中 各 个 Chunk Server 的 稳定 性 都 无 法 确保 ,加 之 网 络 等 多 种 不 确定 因 
素 ,一 致 性 问题 尤为 复杂 。 此 外 由 于 读 取 的 数据 量 巨 大 ,以 当前 的 内 存 容量 无 法 完全 缓存 。 
对 于 存储 在 Master 中 的 元 数据 ,GFS 采取 了 缓存 策略 ,GFS 中 Client 发 起 的 所 有 操作 都 需 
要 先 经 过 Master。Master 需要 对 其 元 数据 进行 频繁 操作 ,为 了 提高 操作 的 效率 ,Master 的 
元 数据 都 是 直接 保存 在 内 存 中 进行 操作 ;同时 采用 相应 的 压缩 机 制 降低 元 数据 占用 空间 的 
大 小 ,提高 内 存 的 利用 率 。 

3. 在 用 户 态 下 实现 

文件 系统 作为 操作 系统 的 重要 组 成 部 分 ,其 实现 通常 位 于 操作 系统 底层 。 以 Linux 为 
例 ,无 论 是 本 地 文件 系统 如 Ext3 文件 系统 ,还 是 分 布 式 文件 系统 如 Lustre 等 ,都 是 在 内 核 
态 实现 的 。 在 内 核 态 实现 文件 系统 ,可 以 更 好 地 和 操作 系统 本 身 结 合 , 向 上 提供 兼容 的 
POSIX 接口 。 然 而 ,GFS 却 选择 在 用 户 态 下 实现 ,主要 基于 以 下 考虑 。 

(1) 在 用 户 态 下 实现 ,直接 利用 操作 系统 提供 的 POSIX 编程 接口 就 可 以 存 取 数据 ,无 
须 了 解 操作 系统 的 内 部 实现 机 制 和 接口 ,从 而 降低 了 实现 的 难度 ,并 提高 了 通用 性 。 

(2) POSIX 接口 提供 的 功能 更 为 丰富 ,在 实现 过 程 中 可 以 利用 更 多 的 特性 ,而 不 像 内 核 
编程 那样 受 限 。 

(3) 用 户 态 下 有 多 种 调试 工具 ,而 在 内 核 态 中 调试 相对 比较 困难 。 

(4) 用 户 态 下 ,Master 和 Chunk Server 都 以 进程 的 方式 运行 ,单个 进程 不 会 影响 到 整 
个 操作 系统 ,从 而 可 以 对 其 进行 充分 优化 。 在 内 核 态 下 .如 果 不 能 很 好 地 掌握 其 特性 ,效率 
不 但 不 会 高 ,甚至 还 会 影响 到 整个 系统 运行 的 稳定 性 。 

(5) 用 户 态 下 ,GFS 和 操作 系统 运行 在 不 同 的 空间 ,两 者 耦合 性 降低 ,从 而 方便 GFS 自 
身 和 内 核 的 单独 升级 。 

4. 只 提供 专用 接口 

通常 的 分 布 式 文件 系统 一 般 都 会 提供 一 组 与 POSIX 规范 兼容 的 接口 。 其 优点 是 应 用 
程序 可 以 通过 操作 系统 的 统一 接口 来 透明 地 访问 文件 系统 ,而 不 需要 重新 编译 程序 。GFS 
在 设计 之 初 是 完全 面向 Google 的 应 用 的 ,采用 了 专用 的 文件 系统 访问 接口 。 接 口 以 库 文件 
的 形式 提供 ,应 用 程序 与 库 文 件 一 起 编译 ,Google 应 用 程序 在 代码 中 通过 调用 这 些 库 文件 
的 API, 完 成 对 GFS 文件 系统 的 访问 。 采 用 专用 接口 有 以 下 好 处 。 
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(1) 降低 了 实现 的 难度 。 通 常 与 POSIX 兼容 的 接口 需要 在 操作 系统 内 核 一 级 实现 ,而 
GFS 是 在 应 用 层 实现 的 。 

(2) 采用 专用 接口 可 以 根据 应 用 的 特点 提供 一 些 特殊 支持 ,如 支持 多 个 文件 并 发 追加 
的 接口 等 。 

(3) 专用 接口 直接 和 Client、Master、Chunk Server 交互 ,减少 了 操作 系统 之 间 上 下 文 
的 切换 ,降低 了 复杂 度 ,提高 了 效率 。 


10.4.3 容错 机 制 


1. Master 容错 

具体 来 说 ,Master 上 保存 了 GFS 文件 系统 的 三 种 元 数据 。 

(1) 命名 空间 (Name Space) ,也 就 是 整个 文件 系统 的 目录 结构 。 

(2) Chunk 与 文件 名 的 映射 表 。 

(3) Chunk 副本 的 位 置信 息 , 每 一 个 Chunk 默认 有 三 个 副本 。 

首先 就 单个 Master 来 说 ,对 于 前 两 种 元 数据 ,GFS 通过 操作 日 志 来 提供 容错 功能 。 第 
三 种 元 数据 信息 则 直接 保存 在 各 个 Chunk Server 上 , 当 Master 启动 或 Chunk Server 向 
Master 注册 时 自动 生成 。 因 此 当 Master 发 生 故 障 时 ,在 磁盘 数据 保存 完好 的 情况 下 ,可 以 
迅速 恢复 以 上 元 数据 。 为 了 防止 Master 彻底 死机 的 情况 ,GFS 还 提供 了 Master 远程 的 实 
时 备份 ,这 样 在 当前 的 GFS Master 出 现 故障 无 法 工作 的 时 候 , 另 外 一 台 GFS Master 可 以 
迅速 接 蔡 其 工作 。 

2. Chunk Server 容错 

GFS 采用 副本 的 方式 实现 Chunk Server 的 容错 。 每 一 个 Chunk 有 多 个 存储 副本 ( 默 
认为 三 个 ) ,分 布 存储 在 不 同 的 Chunk Server 上 。 副 本 的 分 布 策略 需要 考虑 多 种 因素 ,如 网 
络 的 拓扑 \ 机 架 的 分 布 、 磁 盘 的 利用 率 等 。 对 于 每 一 个 Chunk ,必须 将 所 有 的 副本 全 部 写 人 
成 功 , 才 视 为 成 功 写 入 。 在 其 后 的 过 程 中 ,如 果 相 关 的 副本 出 现 丢 失 或 不 可 恢复 等 状况 ， 
Master 会 自动 将 该 副本 复制 到 其 他 Chunk Server, 从 而 确保 副本 保持 一 定 的 个 数 。 尽 管 一 
份 数据 需要 存储 三 份 , 好 像 磁盘 空间 的 利用 率 不 高 ,但 综合 比较 多 种 因素 ,加 之 磁盘 的 成 本 
不 断 下 降 , 采 用 副本 无 疑 是 最 简单 .最 可 靠 , 最 有 效 ,而且 实现 的 难度 也 是 最 小 的 一 种 方法 。 

GFS 中 的 每 一 个 文件 被 划分 成 多 个 Chunk, Chunk 的 默认 大 小 是 64MB, 这 是 因为 
Google 应 用 中 处 理 的 文件 都 比较 大 ,以 64MB 为 单位 进行 划分 ,是 一 个 较为 合理 的 选择 。 
Chunk Server 存储 的 是 Chunk 的 副本 ,副本 以 文件 的 形式 进行 存储 。 每 一 个 Chunk 以 
Block 为 单位 进行 划分 ,大 小 为 64KB, 每 一 个 Block 对 应 一 个 32bit 的 校 验 和 。 当 读 取 一 个 
Chunk 副本 时 ,Chunk Server 会 将 读 取 的 数据 和 校 验 来 进行 比较 ,如 果 不 匹 配 , 就 会 返回 错 
误 ,从 而 使 Client 选择 其 他 Chunk Server 上 的 副本 。 


10.4.4 系统 管理 技术 


严格 意义 上 来 说 ,GFS 是 一 个 分 布 式 文件 系统 ,包含 从 硬件 到 软件 的 整套 解决 方案 。 
除了 上 面 提 到 的 GFS 的 一 些 关键 技术 外 ,还 有 相应 的 系统 管理 技术 来 支持 整个 GFS 的 应 
用 ,这 些 技术 可 能 并 不 一 定 为 GFS 所 独 有 。 
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1. 大 规模 集群 安装 技术 

安装 GFS 的 集群 中 通常 有 非常 多 的 节点 ,最 大 的 集群 超过 1000 个 节点 ,而 现在 的 
Google 数据 中 心动 辑 有 万 台 以 上 的 机 器 在 运行 。 那 么 ,迅速 地 安装 .部署 一 个 GFS 的 系 
统 , 以 及 迅速 地 进行 节点 的 系统 升级 等 ,都 需要 相应 的 技术 支撑 。 

2. 故障 检测 技术 

GFS 是 构建 在 不 可 靠 的 廉价 计算 机 之 上 的 文件 系统 ,由 于 节点 数目 众多 ,故障 发 生 十 
分 频繁 ,如 何在 最 短 的 时 间 内 发 现 并 确定 发 生 故 障 的 Chunk Server, 需 要 相关 的 集群 监控 
技术 。 

3. 节点 动态 加 入 技术 

当 有 新 的 Chunk Server 加 入 时 ,如 果 需 要 事先 安装 好 系统 ,那么 系统 扩展 将 是 一 件 十 
分 烦琐 的 事情 。 如 果 能 够 做 到 只 需 将 裸 机 加 入 ,就 会 自动 获取 系统 并 安装 运行 ,那么 将 会 大 
大 减少 GFS 维护 的 工作 量 。 

4. 节能 技术 

有 关 数 据 表明 ,服务 器 的 耗 电 成 本 大 于 当初 的 购买 成 本 ,因此 Google 采用 了 多 种 机 制 
来 降低 服务 器 的 能 耗 ,例如 对 服务 器 主板 进行 修改 ,采用 蓄电池 代替 昂贵 的 UPS( 不 间断 电 
源 系统 ) ,提高 能 量 的 利用 率 。Rich Miller 在 一 篇 关于 数据 中 心 的 博客 文章 中 表示 ,这 个 设 
计 让 Google 的 UPS 利用 率 达 到 99.9% ,而 一 般 数据 中 心 只 能 达到 92% 一 95%。 


10.4.5 ”并行 数 据 处 理 MapReduce 


MapReduce 是 Google 提出 的 一 个 软件 架构 ,是 一 种 处 理 海量 数据 的 并 行 编程 模式 ,用 
于 大 规模 数据 集 ( 通 常 大 于 1TB) 的 并 行 运 算 。Map( 映 射 )、Reduce( 化 简 ) 的 概念 和 主要 思 
想 ,都 是 从 函数 式 编程 语言 和 矢量 编程 语言 借鉴 来 的 。 正 是 由 于 MapReduce 有 函数 式 和 矢 
量 编 程 语言 的 共性 ,使 得 这 种 编程 模式 特别 适合 于 非 结 构 化 和 结构 化 的 海量 数据 的 搜索 、 挖 
掘 、 分 析 与 机 器 智能 学 习 等 。 

1. 产生 背景 

MapReduce 这 种 并 行 编程 模式 思想 最 早 是 在 1995 年 提出 的 。 与 传统 的 分 布 式 程序 设 
计 相 比 ,MapReduce 封装 了 并 行 处 理 、 容 错 处 理 `, 本 地 化 计算 、 负 载 均衡 等 细节 ,还 提供 了 一 
个 简单 而 强大 的 接口 。 通 过 这 个 接口 ,可 以 把 大 尺度 的 计算 自动 地 并 发 和 分 布 执行 ,从 
而 使 编程 变 得 非常 容易 。 还 可 以 通过 由 普通 PC 构成 的 巨大 集群 来 达到 极 高 的 性 能 。 另 
外 ,MapReduce 也 具有 较 好 的 通用 性 ,大 量 不 同 的 问题 都 可 以 简单 地 通过 MapReduce 来 
解决 。 

MapReduce 把 对 数据 集 的 大 规模 操作 ,分 发 给 一 个 主 节 点 管理 下 的 各 分 节点 共同 完 
成 ,通过 这 种 方式 实现 任务 的 可 靠 执 行 与 容错 机 制 。 在 每 个 时 间 周 期 , 主 节点 都 会 对 分 节点 
的 工作 状态 进行 标记 ,一 旦 分 节点 状态 标记 为 死亡 状态 , 则 这 个 节点 的 所 有 任务 都 将 分 配给 
其 他 分 节点 重新 执行 。 

据 相关 统计 ,每 使 用 一 次 Google 搜索 引擎 ,Google 的 后 台 服 务 器 就 要 进行 102 次 运 
算 。 这 么 庞大 的 运算 量 ,如 果 没 有 好 的 负载 均衡 机 制 ,有 些 服 务 器 的 利用 率 会 很 低 , 有 些 则 
会 负荷 太 重 ,有些 甚至 可 能 死机 ,这 些 都 会 影响 系统 对 用 户 的 服务 质量 。 而 使 用 

299 


数据 安全 与 灾 备 管理 





MapReduce 这 种 编程 模式 ,就 保持 了 服务 器 之 间 的 均 原始 数据 1 原始 数据 2 原始 数据 M 
衡 , 提 高 了 整体 效率 。 

2. 编程 模型 

MapReduce 的 运行 模型 如 图 10-2 所 示 。 图 中 有 
M 个 Map 操作 和 RR 个 Reduce 操作 。 

简单 地 说 ,一 个 Map 函数 就 是 对 一 部 分 原始 数据 
进行 指定 的 操作 。 每 个 Map 操作 都 针对 不 同 的 原始 
数据 ,因此 Map 与 Map 之 间 是 互相 独立 的 ,这 就 使 得 
它们 可 以 充分 并 行 化 。 一 个 Reduce 操作 就 是 对 每 个 
Map 所 产生 的 一 部 分 中 间 结 果 进 行 合并 操作 , 每 个 
Reduce 所 处 理 的 Map 中 间 结 果 是 互 不 交叉 的 ,所 有 结果 1 结果 RR 
Reduce 产生 的 最 终结 果 经 过 简单 连接 就 形成 了 完整 图 10-2 ”MapReduce 的 运行 模型 
的 结果 集 , 因 此 Reduce 也 可 以 在 并 行 环境 下 执行 。 

在 编程 的 时 候 , 开 发 者 需要 编写 两 个 主要 函数 : 

@ Map: (in_key, in_value)—>{(key;, value;)|j=1*…k} 





© Reduce: (key, [value ,** ,value, ])—>(key, final_value) 

Map 和 Reduce 的 输入 参数 和 输出 结果 根据 应 用 的 不 同 而 有 所 不 同 。Map 的 输入 参数 
是 in_key 和 in_value, 它 指明 了 Map 需要 处 理 的 原始 数据 是 哪些 。Map 的 输出 结果 是 一 组 
去 key,value 二 对 ,这 是 经 过 Map 操作 后 所 产生 的 中 间 结 果 。 在 进行 Reduce 操作 之 前 , 系 
统 已 经 将 所 有 Map 产生 的 中 间 结 果 进 行 了 归 类 处 理 , 使 得 相同 key 对 应 的 一 系列 value 能 
够 集结 在 一 起 提供 给 一 个 Reduce 进行 归并 处 理 , 也 就 是 说 , Reduce 的 输入 参数 是 (key， 
[valuel ,… ,value,, ])。Reduce 的 工作 是 需要 对 这 些 对 应 相同 key 的 value 值 进行 归并 处 
理 , 最 终 形成 (key, final_value) 的 结果 。 这 样 ,一 个 Reduce 处 理 了 一 个 key, 所 有 Reduce 
的 结果 并 在 一 起 就 是 最 终结 果 。 

例如 ,假设 我 们 想 用 MapReduce 来 计算 一 个 大 型 文本 文件 中 各 个 单词 出 现 的 次 数 ， 
Map 的 输入 参数 指明 了 需要 处 理 哪 部 分 数据 ,以 二 在 文本 中 的 起 始 位 置 ,需要 处 理 的 数 
据 长 度 二 表示 ,经 过 Map 处 理 , 形 成 一 批 中 间 结 果 二 单词 ,出 现 次 数 二 。 而 Reduce 函数 
则 是 把 中 间 结 果 进 行 处 理 , 将 相同 单词 出 现 的 次 数 进行 累加 ,得 到 每 个 单词 总 的 出 现 
次 数 。 


10.4.6 实现 机 制 


实现 MapReduce 操作 的 执行 流程 如 图 10-3 所 示 。 

当 用 户 程序 调用 MapReduce 函数 ,就 会 引起 如 下 操作 (图 中 的 数字 标示 和 下 面 的 数字 
标示 相同 ) 。 

用 户 程 序 中 的 MapReduce 函数 库 首 先 把 输入 文件 分 成 M 块 ,每 块 大 概 16 一 64MB( 可 
以 通过 参数 决定 ) ,接着 在 集群 的 机 器 上 执行 处 理 程 序 。 

这 些 分 派 的 执行 程序 中 有 一 个 程序 比较 特别 , 它 是 主 控 程序 Master。 剩 下 的 执行 程序 
都 是 作为 Master 分 派 工 作 的 Worker( 工 作 机 )。 总 共有 M 个 Map 任务 和 尺 个 Reduce 任 
务 需 要 分 派 .Master 选择 空闲 的 Worker 来 分 配 这 些 Map 或 者 Reduce 任务 。 
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中 间 文 件 


输入 文件 Map 状 态 (位 于 本 地 硬盘 ) Reduce 状 态 输出 文件 
10-3 MapReduce 执行 流程 图 


一 个 分 配 了 Map 任务 的 Worker 读 取 并 处 理 相 关 的 输入 块 。 它 处 理 输入 的 数据 ,并 且 
将 分 析出 的 二 key, value 二 对 传递 给 用 户 定义 的 Map 函数 。Map 函数 产生 的 中 间 结 果 
到 key,value 二 对 暂时 缓冲 到 内 存 。 

这 些 缓冲 到 内 存 的 中 间 结 果 将 被 定时 写 到 本 地 硬盘 ,这 些 数据 通过 分 区 函数 分 成 尽 个 
区 。 中 间 结 果 在 本 地 硬盘 的 位 置信 息 将 被 发 送 回 Master, 然 后 Master 负责 把 这 些 位 置信 
息 传送 给 Reduce Worker。 

当 Master 通知 Reduce 的 Worker 关于 中 间 志 key, value 二 对 的 位 置 时 , 它 调用 远程 过 
程 来 从 Map Worker 的 本 地 硬盘 上 读 取 缓冲 的 中 间 数 据 。 当 Reduce Worker 读 到 所 有 的 中 
间 数 据 , 它 就 使 用 中 间 key 进行 排序 ,这 样 可 以 使 得 相同 key 的 值 都 在 一 起 。 因 为 有 许多 不 
同 key 的 Map 都 对 应 相同 的 Reduce 任务 ,所 以 ,排序 是 必需 的 。 如 果 中 间 结 果 集 过 于 庞 
大 ,那么 就 需要 使 用 外 排序 。 

Reduce Worker 根据 每 一 个 唯一 中 间 key 来 遍历 所 有 的 排序 后 的 中 间 数 据 , 并 且 把 key 
和 相关 的 中 间 结 果 值 集合 传递 给 用 户 定义 的 Reduce 函数 。Reduce 函数 的 结果 输出 到 一 个 
最 终 的 输出 文件 中 。 

当 所 有 的 Map 任务 和 Reduce 任务 都 已 经 完成 的 时 候 , Master 激活 用 户 程 序 。 此 时 
MapReduce 返回 用 户 程序 的 调用 点 。 

由 于 MapReduce 是 用 在 成 百 上 千 台 机 器 上 处 理 海量 数据 的 ,所 以 容错 机 制 是 不 可 或 缺 
的 。 总 的 说 来 ,MapReduce 是 通过 重新 执行 失效 的 地 方 来 实现 容错 的 。 

1. Master 失效 

在 Master 中 ,会 周期 性 地 设置 检查 点 (checkpoint) ,并 导出 Master 的 数据 。 一 旦 某 个 
任务 失效 了 ,就 可 以 从 最 近 的 一 个 检查 点 恢复 并 重新 执行 。 不 过 由 于 只 有 一 个 Master 在 运 
行 ,如 果 Master 失效 了 , 则 只 能 终止 整个 MapReduce 程序 的 运行 并 重新 开始 。 
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2. Worker 失效 

相对 于 Master 失效 而 言 , Worker 失效 算是 一 种 常见 的 状态 。Master 会 周期 性 地 给 
Worker 发 送 ping 命令 ,如 果 没 有 Worker 的 应 答 , 则 Master 认为 Worker 失效 ,终止 对 这 
个 Worker 的 任务 调度 ,把 失效 Worker 的 任务 调度 到 其 他 Worker 上 重新 执行 。 

3. 案例 分 析 

单词 计数 (Word Count) 是 一 个 经 典 的 问题 ,也 是 能 体现 MapReduce 设计 思想 的 最 简 
单 算法 之 一 。 该 算法 主要 是 为 了 完成 对 文字 数据 中 所 出 现 的 单词 进行 计数 ,如 图 10-4 
所 示 。 

输入 数据 :文件 所 包含 的 信息 输出 数据 :单词 所 出 现 的 频率 















Hello World Bye World Hello:3 





Hello Hadoop Bye Hadoop MapReduce a 
Bye Hadoop Hello Hadoop Hadoop:4 











图 10-4 单词 计数 示意 图 
伪 代 码 如 下 : 


Map(K,V){ 
For each wordw inV 
Collect (w, 1); 
} 
Reduoe KV[ J) { 
int count= 0; 
For each v inV 
oontt =V; 
Collect K, oount); 
} 


下 面 就 根据 MapReduce 的 四 个 执行 步骤 对 这 一 算法 进行 详细 的 介绍 。 
根据 文件 所 包含 的 信息 分 割 (Split) 文 件 , 在 这 里 把 文件 的 每 行 分 割 为 一 组 , 共 三 组 ,如 
图 10-5 所 示 。 这 一 步 由 系统 自动 完 











Hello world Bye World Split Hello World Bye World 广 -| (Key,value) ] 


L 








Hello Hadoop Bye Hadoop Split Hello Hadoop Bye Hadoop —| (Key,value) ] 


Bye Hadoop Hello Hadoop Split "| Bye Hadooop Hello Hadoop 广 -| (Key,value) ] 


图 10-5 分割 过 程 示 意图 




















对 分 割 之 后 的 每 一 对 所 key,value 之 利用 用 户 定义 的 Map 进行 处 理 ,再 生成 新 的 二 key， 
value> 对 ,如 图 10-6 所 示 。 
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; Map 输出 
Split 输 出 Map 输出 


<Hello,1> 


<World,1> 
Hello World Bye World <Bye,l> 


<World,1> 











<Hello,1> 
<Hadoop,1> 
<Bye,l> 
<Hadoop,1> 





Hello Hadoop Bye Hadoop 





<Bye,1> 
<Hadoop,1> 
<Hello,1> 
<Hadoop,1> 





Bye Hadoop Hello Hadoop 




















图 10-6 ”Map 过 程 示意 图 


Map 输出 之 后 有 一 个 内 部 的 Fold 过 程 ,与 第 一 步 一 样 ,都 是 由 系统 自动 完成 的 ,如 
图 10-7 所 示 。 








Map 输 出 Fold 输 出 
<Hello,1> <Hello.1> 
<World,1> <Hello,1> 
<Bye,1> <Hello,1> 
<World,1> <Worldl> 
<Hello,1> <World,1> 
<Hadoop,1> <Bye,l> 
<Bye,1> <Bye 1> 
<Hadoop,1> <Bye,1> 
<Bye1> <Hadoop,1> 
<Hadoop,1> <Hadoop,1> 
<Hello.1> <Hadoop,1> 
<Hadoop,1> <Hadoop,1> 

SS 





图 10-7 Fold 过 程 示意 图 


经 过 Fold 步骤 之 后 的 输出 与 结果 已 经 非常 接近 ,再 由 用 户 定 义 的 Reduce 步骤 完成 最 
后 的 工作 即 可 ,如 图 10-8 所 示 。 


10.4.7 分 布 式 锁 服 务 Chubby 


Chubby 是 Google 设计 的 提供 粗 粒 度 锁 服务 的 一 个 文件 系统 , 它 基 于 松 耦 合 分 布 式 系 

统 , 解 决 了 分 布 的 一 致 性 问题 。 通 过 使 用 Chubby 的 锁 服 务 ,用 户 可 以 确保 数据 操作 过 程 中 

的 一 致 性 。 不 过 值得 注意 的 是 .这 种 锁 只 是 一 种 建议 性 的 锁 (Advisory Lock) 而 不 是 强制 性 
的 锁 (Mandatory Lock) ,如 此 选择 的 目的 是 使 系统 具有 更 大 的 灵活 性 。 

GFS 使 用 Chubby 来 选取 一 个 GFS 主 服务 器 ,Bigtable 使 用 Chubby 指定 一 个 主 服务 

器 并 发 现 ,控制 与 其 相关 的 子 表 服 务 器 。 除 了 最 常用 的 锁 服务 之 外 ,Chubby 还 可 以 作为 一 

个 稳定 的 存储 系统 存储 包括 元 数据 在 类 的 小 数据 。 同 时 Google 内 部 还 使 用 Chubby 进行 

名 字 服 务 (Name Server) 。 本 节 首 先 简 要 介绍 Paxos 算法 .因为 Chubby 内 部 一 致 性 问题 的 

实现 用 到 了 Paxos 算法 ;然后 围绕 Chubby 系统 的 设计 和 实现 展开 讲解 。 通 过 本 节 的 学 习 ， 
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Fold 输 出 


<Hello.1> 
<Hello,1> Reduce 输 出 
<Hello,1> 

<World,1> 
<World,1> 











<Hello,3> 
<World,2> 
<Bye,3> 
<Hadoop,4> 


<Bye'1> 
<Bye,1> 
<Bye'1> 


<Hadoop,1> 
<Hadoop,1> 
<Hadoop,1> 
<Hadoop,1> 








图 10-8 ”Reduce 过 程 示意 图 


读者 应 该 对 分 布 式 系统 中 一 致 性 问题 的 一 般 性 算法 有 了 初步 的 了 解 ,着 重 掌握 Chubby 系 
统 设计 和 实现 的 精髓 。 

1. Paxos 算法 

Paxos 算 法 是 由 供职 于 微软 的 Leslie Lamport 最 先 提出 的 一 种 基于 消息 传递 
(Messages Passing) 的 一 致 性 算法 。 在 目前 所 有 的 一 致 性 算法 中 ,该 算法 最 常用 且 被 认为 
是 最 有 效 的 。 要 想 了 解 Paxos 算法 ,我 们 首先 需要 知道 什么 是 分 布 式 系统 中 的 一 致 性 问题 ， 
因为 Paxos 算法 就 是 为 了 解决 这 个 问题 而 提出 的 。 简 单 地 说 分 布 式 系统 的 一 致 性 问题 ,就 
是 如 何 保证 系统 中 初始 状态 相同 的 各 个 节点 在 执行 相同 的 操作 序列 时 ,看 到 的 指令 序列 是 
完全 一 致 的 ,并 且 最 终 得 到 完全 一 致 的 结果 。 在 Lamport 提出 的 Paxos 算法 中 节点 被 分 成 
了 三 种 类 型 : proposers、acceptors 和 learners。 其 中 proposers 提出 决议 (Value) ,acceptors 
批准 决议 ,learners 获取 并 使 用 已 经 通过 的 决议 。 一 个 节点 可 以 兼 有 多 重 类 型 。 在 这 种 情 
况 下 ,满足 以 下 三 个 条 件 就 可 以 保证 数据 的 一 致 性 。 

(1) 决议 只 有 在 被 proposers 提出 后 才能 批准 。 

(2) 每 次 只 批准 一 个 决议 。 

(3) 只 有 决议 确定 被 批准 后 learners 才能 获取 这 个 决议 。 

Lamport 通过 约束 条 件 的 不 断 加 强 , 最 后 得 到 了 一 个 可 以 实际 运用 到 算法 中 的 完整 约 
束 条 件 : 如 果 一 个 编号 为 n 的 提案 具有 值 v. 那 么 存在 一 个 多 数 派 , 要 么 他 们 中 没有 人 批准 
过 编号 小 于 n 的 任何 提案 ,要 么 他 们 进行 的 最 近 一 次 批准 具有 值 vu。 为 了 保证 决议 的 唯一 
性 ,acceptors 也 要 满足 一 个 如 下 的 约束 条 件 : 当 且 仅 当 acceptors 没有 收 到 编号 大 于 的 请 
求 时 ,acceptors 才 批 准 编号 为 n 的 提案 。 

在 这 些 约束 条 件 的 基础 上 ,可 以 将 一 个 决议 的 通过 分 成 两 个 阶段 。 

准备 阶段 : proposers 选择 一 个 提案 并 将 它 的 编号 设 为 .然后 将 它 发 送 给 acceptors 中 
的 一 个 多 数 派 。Acceptors 收 到 后 ,如 果 提 案 的 编号 大 于 它 已 经 回复 的 所 有 消息 , 则 
acceptors 将 自己 上 次 的 批准 回复 给 proposers ,并 不 再 批准 小 于 的 提案 。 

批准 阶段 : 当 proposers 接收 到 acceptors 中 的 这 个 多 数 派 的 回复 后 ,就 向 回复 请 求 的 
acceptors 发 送 accept 请 求 ,在 符合 acceptors 一 方 的 约束 条 件 下 »acceptors 收 到 accept 请 求 
后 即 批准 这 个 请 求 。 
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为 了 减少 决议 发 布 过 程 中 的 消息 量 ,acceptors 将 这 个 通过 的 决议 发 送 给 learners 的 一 
个 子 集 ,然后 由 这 个 子 集中 的 learners 去 通知 所 有 其 他 的 learners。 一 般 情况 下 ,以 上 的 算 
法 过 程 就 可 以 成 功 地 解决 一 致 性 问题 ,但 是 也 有 特殊 情况 。 根 据 算法 ,一 个 编号 更 大 的 提案 
会 终止 之 前 的 提案 过 程 ,如 果 两 个 proposer 在 这 种 情况 下 都 转 而 提出 一 个 编号 更 大 的 提 
案 , 那 么 就 可 能 陷入 活 锁 。 此 时 需要 选举 出 一 个 president, 仅 允许 president 提出 提案 。 

以 上 只 是 简要 地 向 大 家 介绍 了 Paxos 算法 的 核心 内 容 ,更 多 的 实现 细节 读者 可 以 参考 
Lamport 关于 Paxos 算法 实现 的 文章 。 

2. Chubby 系统 设计 

通常 情况 下 Google 的 一 个 数据 中 心 仅 运行 一 个 Chubby 单元 (Chubby cell, 下 面 会 有 
详细 讲解 ) ,而 这 个 单元 需要 支持 包括 GFS、Bigtable 在 内 的 众多 Google 服务 。 这 种 苛刻 的 
服务 要 求 使 得 Chubby 在 设计 之 初 就 要 充分 考虑 到 系统 需要 实现 的 目标 以 及 可 能 出 现 的 各 
种 问题 。 

Chubby 的 设计 目标 主要 有 以 下 几 点 。 

(1) 高 可 用 性 和 高 可 靠 性 。 这 是 系统 设计 的 首要 目标 ,在 保证 这 一 目标 的 基础 上 再 考 
虑 系统 的 吞吐 量 和 存储 能 力 。 

(2) 高 扩展 性 。 将 数据 存储 在 价格 较为 低廉 的 RAM ,支持 大 规模 用 户 访问 文件 。 

(3) 支持 粗 粒 度 的 建议 性 锁 服务 。 提 供 这 种 服务 的 根本 目的 是 提高 系统 的 性 能 。 

(4) 服务 信息 的 直接 存储 。 可 以 直接 存储 包括 元 数据 ,系统 参数 在 内 的 有 关 服 务 信息 ， 
而 不 需要 再 维护 另 一 个 服务 。 

(5) 支持 通报 机 制 。 客 户 可 以 及 时 地 了 解 到 事件 的 发 生 情况 。 

(6) 支持 缓存 机 制 。 通 过 一 致 性 缓存 将 常用 信息 保存 在 客户 端 , 避 免 了 频繁 地 访问 主 
服务 器 。 

前 面 提 到 在 分 布 式 系统 中 保持 数据 一 致 性 最 常用 也 最 有 效 的 算法 是 Paxos, 很 多 系统 
就 是 将 Paxos 算法 作为 其 一 致 性 算法 的 核心 。 但 是 Google 并 没有 直接 实现 一 个 包含 了 
Paxos 算法 的 函数 库 ,相反 ,Google 设计 了 一 个 全 新 的 锁 服务 Chubby。Google 做 出 这 种 设 
计 主 要 是 考虑 到 以 下 几 个 问题 。 

(1) 通常 情况 下 开发 者 在 开发 的 初期 很 少 考虑 系统 的 一 致 性 问题 ,但 是 随 着 开发 的 不 
断 进 行 , 这 种 问题 会 变 得 越 来 越 严 重 。 单 独 的 锁 服 务 可 以 保证 原 有 系统 的 架构 不 会 发 生 改 
变 , 而 使 用 函数 库 很 可 能 需要 对 系统 的 架构 做 出 大 幅度 的 改动 。 

(2) 系统 中 很 多 事件 的 发 生 是 需要 告知 其 他 用 户 和 服务 器 的 ,使 用 一 个 基于 文件 系统 
的 锁 服务 可 以 将 这 些 变动 写 入 文件 中 。 这 样 其 他 需要 了 解 这 些 变动 的 用 户 和 服务 器 直接 访 
问 这 些 文件 即 可 ,避免 了 因 大 量 的 系统 组 件 之 间 的 事件 通信 带 来 的 系统 性 能 下 降 。 

(3) 基于 锁 的 开发 接口 容易 被 开发 者 接受 。 虽 然 在 分 布 式 系统 中 锁 的 使 用 会 有 很 大 的 


一 般 来 说 分 布 式 一 致 性 问题 通过 quorum 机 制 (简单 来 说 就 是 根据 少数 服从 多 数 的 选 

举 原则 产生 一 个 决议 ) 做 出 决策 ,为 了 保证 系统 的 高 可 用 性 .需要 若干 台 机 器 ,但 是 使 用 单独 

的 锁 服务 ,一 台 机 器 也 能 保证 这 种 高 可 用 性 。 也 就 是 说 ,Chubby 在 自身 服务 的 实现 时 利用 

若干 台 机 器 实现 了 高 可 用 性 ,而 外 部 用 户 利用 Chubby 则 只 需 一 台 机 器 就 可 以 保证 高 可 
用 性 。 
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正 是 考虑 到 以 上 几 个 问题 ,Google 设计 了 Chubby, 而 不 是 单独 地 维护 一 个 函数 库 ( 实 
际 上 ,Google 有 这 样 一 个 独立 于 Chubby 的 函数 库 , 不 过 一 般 情况 下 并 不 会 使 用 )。 在 设计 
的 过 程 中 有 一 些 细节 问题 也 值得 我 们 关注 ,比如 在 Chubby 系统 中 采用 了 建议 性 的 锁 而 没 
有 采用 强制 性 的 锁 。 两 者 的 根本 区 别 在 于 用 户 访问 某 个 被 锁定 的 文件 时 ,建议 性 的 锁 不 会 
阻止 这 种 行为 ,而 强制 性 的 锁 则 会 阻止 这 种 行为 ,实际 上 这 是 为 了 便于 系统 组 件 之 间 的 
信息 交互 行为 。 另 外 Chubby 还 采用 了 粗 粒 度 (Coarse-Grained) 锁 服务 而 没有 采用 细 粒 度 
(Fine-Grained) 锁 服务 ,两 者 的 差异 在 于 持 有 锁 的 时 间 。 细 粒度 的 锁 持 有 时 间 很 短 ,常常 
只 有 几 秒 甚至 更 少 ,而 粗 粒 度 的 锁 持 有 的 时 间 可 长 达 几 天 .做 出 如 此 选择 的 目的 是 减少 
频繁 换 锁 带 来 的 系统 开销 。 当 然 用 户 也 可 以 自行 实现 细 粒 度 锁 , 不 过 建议 还 是 使 用 粗 粒 
度 的 锁 。 

图 10-9 就 是 Chubby 的 基本 架构 。 很 明显 ,Chubby 被 划分 成 两 个 部 分 : 客户 端 和 服务 
器 端 ,客户 端 和 服务 器 端 之 间 通 过 远程 过 程 调用 (RPC) 来 连接 。 在 客户 这 一 端 每 个 客户 应 
用 程序 都 有 一 个 Chubby 程序 库 (Chubby Library) ,客户 端的 所 有 应 用 都 是 通过 调用 这 个 
库 中 的 相关 函数 来 完成 的 。 服 务 器 一 端 称 为 Chubby 单元 ,一 般 是 由 五 个 称 为 副本 
(Replica) 的 服务 器 组 成 的 ,这 五 个 副本 在 配置 上 完全 一 致 ,并 且 在 系统 刚 开始 时 处 于 对 等 
地 位 。 这 些 副 本 通过 quorum 机 制 选举 产生 一 个 主 服 务 器 (Master) ,并 保证 在 一 定 的 时 间 
内 有 且 仅 有 一 个 主 服务 器 ,这 个 时 间 就 称 为 主 服 务 器 租约 期 (Master Lease)。 如 果 某 个 服 
务 器 被 连续 推举 为 主 服务 器 ,这 个 租约 期 就 会 不 断 地 被 更 新 。 租 续 期 内 所 有 的 客户 请 求 都 
是 由 主 服务 器 来 处 理 的 。 客 户 端 如 果 需 要 确定 主 服 务 器 的 位 置 ,可 以 向 DNS 发 送 一 个 主 服 
务 器 定位 请 求 , 非 主 服务 器 的 副本 将 对 该 请 求 做 出 回应 ,通过 这 种 方式 客户 端 能 够 快速 、 准 
确 地 对 主 服务 器 做 出 定位 。 
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图 10-9 Chubby 的 基本 架构 示意 图 


3. Chubby 文件 系统 

Chubby 系统 本 质 上 就 是 一 个 分 布 式 的 、 存 储 大 量 小 文件 的 文件 系统 , 它 所 有 的 操作 都 
是 在 文件 的 基础 上 完成 的 。 例 如 在 Chubby 最 常用 的 锁 服 务 中 ,每 一 个 文件 就 代表 了 一 个 
锁 , 用 户 通过 打开 .关闭 和 读 取 文件 ,获取 共享 (Shared) 锁 或 独占 (Exclusive) 锁 。 选 举 主 服 
务 器 的 过 程 中 ,符合 条 件 的 服务 器 都 同时 申请 打开 某 个 文件 并 请 求 锁 住 该 文件 。 成 功 获得 
锁 的 服务 器 自动 成 为 主 服 务 器 并 将 其 地 址 写 入 这 个 文件 夹 , 以 便 其 他 服务 器 和 用 户 可 以 获 
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知 主 服务 器 的 地 址 信息 。 

Chubby 的 文件 系统 和 UNIX 类 似 。 例 如 在 文件 名 “/ls/foo/wombat/pouch” 中 ,ls 代 
表 lock service, 这 是 所 有 Chubby 文件 系统 的 共有 前 级 ;foo 是 某 个 单元 的 名 称 ;/wombat/ 
pouch 则 是 foo 这 个 单元 上 的 文件 目录 或 者 文件 名 。 由 于 Chubby 自身 的 特殊 服务 要 求 ， 
Google 对 Chubby 做 了 一 些 与 UNIX 不 同 的 改变 。 例 如 Chubby 不 支持 内 部 文件 的 移动 ， 
不 记录 文件 的 最 后 访问 时 间 ,另外 在 Chubby 中 并 没有 符号 连接 (Symbolic Link, 又 叫 软 连 
接 ,类 似 于 Windows 系统 中 的 快捷 方式 ) 和 硬 连 接 (Hard Link ,类 似 于 别名 ) 的 概念 。 在 具 
体 实现 时 ,文件 系统 由 许多 节点 组 成 ,分 为 永久 型 和 临时 型 ,每 个 节点 就 是 一 个 文件 或 目录 。 
节点 中 保存 着 包括 ACL(Access Control List, 访 问 控制 列表 ) 在 内 的 多 种 系统 元 数据 。 为 
了 用 户 能 够 及 时 了 解 元 数据 的 变动 ,系统 规定 每 个 节点 的 元 数据 都 应 当 包 含 以 下 四 种 单调 
递增 的 64 位 编号 。 

。 实例 号 (Instance Number) : 新 节点 实例 号 必定 大 于 旧 节 点 的 实例 号 。 

。 内 容 生 成 号 (Content Generation Number): 文件 内 容 修改 时 该 号 增加 。 

。 锁 生成 号 (Lock Generation Number) : 锁 被 用 户 持 有 时 该 号 增加 。 

。 ACL 生成 号 (ACL Generation Number) : ACL 名 被 覆 写 时 该 号 增加 。 

用 户 在 打开 某 个 节点 时 就 会 获取 一 个 类 似 于 UNIX 中 文件 描述 符 (File Descriptor) 的 
句柄 (Handles) ,这 个 句柄 由 以 下 三 个 部 分 组 成 。 

。 校 验 数位 (Check Digit) : 防止 其 他 用 户 创建 或 猜测 这 个 句柄 。 

。 序号 (Sequence Number) : 用 来 确定 句柄 是 由 当前 还 是 以 前 的 主 服务 器 创建 的 。 

。 模式 信息 (Mode Information) : 用 于 新 的 主 服 务 器 重新 创建 一 个 旧 的 句柄 。 

在 实际 的 执行 中 ,为 了 避免 所 有 的 通信 都 使 用 序号 带 来 的 系统 开销 增长 ,Chubby 引入 
了 sequencer 的 概念 。sequencer 实际 上 就 是 一 个 序号 ,只 不 过 这 个 序号 只 能 由 锁 的 持 有 者 
在 获取 锁 时 向 系统 发 出 请 求 来 获得 。 这 样 一 来 Chubby 系统 中 只 有 涉及 锁 的 操作 才 需 要 序 
号 ,其 他 一 概 不 用 。 在 文件 操作 中 ,用 户 可 以 将 句柄 看 作 一 个 指向 文件 系统 的 指针 。 这 个 指 
针 支持 一 系列 的 操作 ,常用 的 句柄 操作 函数 如 表 10-1 所 示 。 

表 10-1 常用 句柄 函数 及 其 作用 





























函数 名 称 作 用 
Open() 打开 某 个 文件 或 者 目录 来 创建 句柄 
Close() 关闭 打开 的 句柄 ,后 续 的 任何 操作 都 将 中 止 
Poison() 中 止 当前 未 完成 及 后 续 的 操作 ,但 不 关闭 句柄 
GetContentsAndStat() 返回 文件 内 容 及 元 数据 
GetStat() 只 返回 文件 元 数据 
ReadDir() 返回 子 目录 名 称 及 其 元 数据 
SetContents() 向 文件 中 写 入 内 容 
SetACLO 设置 ACL 名 称 
Delete() 如 果 该 节点 没有 子 节点 , 则 执行 删除 操作 
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续 表 
函数 名 称 作 用 
Acquire() 获取 锁 
Release() 释放 锁 
GetSequencer() 返回 一 个 sequencer 
SetSequencer() 将 sequencer 与 某 个 句柄 进行 关联 
CheckSequencer() 检查 某 个 sequencer 是 否 有 效 





10.4.8 通信 协议 


客户 端 和 主 服 务 器 之 间 的 通信 是 通过 KeepAlive 握手 协议 来 维持 的 ,图 10-10 就 是 这 
一 通信 过 程 的 简单 示意 图 。 


旧 的 主 无 主 服务 器 选 出 新 的 主 服务 器 
服务 器 故障 











客户 端 











租约 Wc， | 





危险 状态 临界 点 。 安全 状态 临界 点 
10-10 ”Chubby 客户 端 与 服务 器 端的 通信 过 程 图 


图 10-11 中 从 左 到 右 时 间 在 增加 , 斜 向 上 的 箭头 表示 一 次 KeepAlive 请 求 , 斜 向 下 的 箭 
头 则 是 主 服务 器 的 一 次 回应 。Mi 、M: .Ms 表示 不 同 的 主 服务 器 租约 期 。Ci 、C;、Cs 则 是 客 
户 端 对 主 服务 器 租约 期 时 长 做 出 的 一 个 估计 。KeepAlive 是 周期 发 送 的 一 种 信息 , 它 主要 
有 两 方面 的 功能 : 延迟 租约 的 有 效 期 和 携带 事件 信息 告诉 用 户 更 新 。 主 要 的 事件 包括 文件 
内 容 被 修改 、 子 节点 的 增加 、 删 除 和 修改 、 主 服务 器 出 错 、 句 柄 失效 等 。 正 常情 况 下 ,通过 
KeepAlive 握手 协议 租约 期 会 得 到 延长 ,事件 也 会 及 时 地 通知 给 用 户 。 但 是 由 于 系统 有 一 
定 的 失效 概率 ,引入 故障 处 理 措施 是 很 有 必要 的 。 通 常情 况 下 系统 可 能 会 出 现 两 种 故障 : 
客户 端 租约 期 过 期 和 主 服 务 器 故障 ,对 于 这 两 种 情况 系统 有 着 不 同 的 应 对 方式 。 

1. 客户 端 租约 过 期 

刚 开 始 时 ,客户 端 向 主 服务 器 发 出 一 个 KeepAlive 请 求 ( 图 10-10 中 的 @) ,如 果 有 需要 
通知 的 事件 时 , 则 主 服 务 器 会 立刻 做 出 回应 ,否则 主 服务 器 并 不 立刻 对 这 个 请 求 做 出 回应 ， 
而 是 等 到 客户 端的 租约 期 C, 快 结束 的 时 候 才 做 出 回应 (图 10-10 中 的 @) ,并 更 新 主 服务 器 
租约 期 为 M; 。 客 户 端 在 接 到 这 个 回应 后 认为 该 主 服务 器 仍 处 于 活跃 状态 ,于 是 将 租约 期 
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更 新 为 C, 并 立刻 发 出 新 的 KeepAlive 请 求 ( 图 10-10 中 的 @)。 同 样 的 , 主 服务 器 可 能 不 是 
立刻 回应 而 是 等 待 Cs 接近 结束 ,但 是 在 这 个 过 程 中 主 服务 器 出 现 故 障 停止 使 用 。 在 等 待 了 
一 段 时 间 后 C; 到 期 ,由 于 并 没有 收 到 主 服务 器 的 回应 ,系统 向 客户 端 发 出 一 个 危险 
(Jeopardy) 事 件 ,客户 端 清空 并 和 暂时 停 用 自己 的 缓存 ,从 而 进入 一 个 称 为 宽 限 期 (Grace 
Period) 的 危险 状态 。 这 个 宽 限期 默认 是 45 秒 。 在 宽 限 期 内 ,客户 端 不 会 立刻 断 开 其 与 服 
务 器 端的 联系 ,而 是 不 断 地 做 探 询 。 图 10-10 中 新 的 主 服 务 器 很 快 被 重新 选 出 , 当 它 接 到 客 
户 端的 第 一 个 KeepAlive 请 求 ( 图 10-10 中 的 四 ) 时 会 拒绝 (图 10-10 中 的 @@) ,因为 这 个 请 求 
的 纪元 号 (Epoch Number) 错 误 。 不 同 主 服务 器 的 纪元 号 不 相同 ,客户 端的 每 次 请 求 都 需要 
这 个 号 来 保证 处 理 的 请 求 是 针对 当前 的 主 服务 器 。 客 户 端 在 主 服务 器 拒绝 之 后 会 使 用 新 的 
纪元 号 来 发 送 KeepAlive 请 求 (图 10-10 中 的 @)。 新 的 主 服务 器 接受 这 个 请 求 并 立刻 做 出 
回应 (图 10-10 中 的 @)。 如 果 客 户 端 接收 到 这 个 回应 的 时 间 仍 处 于 宽 限 期 内 , 则 系统 会 恢 
复 到 安全 状态 ,租约 期 更 新 为 C; 。 如 果 在 宽 限 期 未 接 到 主 服务 器 的 相关 回应 , 则 客户 端 终 
止 当前 的 会 话 。 

2. 主 服 务 器 出 错 

在 客户 端 和 主 服务 器 端 进行 通信 时 可 能 会 遇 到 主 服务 器 故障 。 正 常情 况 下 旧 的 主 服务 
器 出 现 故障 后 系统 会 很 快 地 选举 出 新 的 主 服 务 器 ,新 选举 的 主 服务 器 在 完全 运行 前 需要 经 
历 以 下 9 个 步骤 。 

加 产生 一 个 新 的 纪元 号 以 便 今 后 客户 端 通信 时 使 用 ,这 能 保证 当前 的 主 服务 器 不 必 处 
理 针对 旧 的 主 服务 器 的 请 求 。 

@ 只 处 理 主 服务 器 位 置 相关 的 信息 ,不 处 理会 话 相关 的 信息 。 

@ 构建 处 理会 话 和 锁 所 需 的 内 部 数据 结构 。 

@ 允许 客户 端 发 送 KeepAlive 请 求 , 不 处 理 其 他 会 话 相 关 的 信息 。 

回 向 每 个 会 话 发 送 一 个 故障 事件 ,促使 所 有 的 客户 端 清空 缓存 。 

@ 等 待 直到 所 有 的 会 话 都 收 到 故障 事件 或 会 话 终止 。 

@ 开始 允许 执行 所 有 的 操作 。 

@ 如 果 客 户 端 使 用 了 旧 的 句柄 , 则 需要 为 其 重新 构建 新 的 句柄 。 

@ 一 定时 间 段 后 (1 分 钟 ) ,删除 没有 被 打开 过 的 临时 文件 夹 。 

如 果 这 一 过 程 在 宽 限 期 内 顺利 完成 , 则 用 户 不 会 感觉 到 任何 故障 的 发 生 ,也 就 是 说 新 旧 
主 服务 器 的 替换 对 于 用 户 来 说 是 透明 的 ,用 户 感觉 到 的 仅仅 是 一 个 延迟 。 使 用 宽 限 期 的 好 
处 正 是 如 此 。 

在 系统 实现 时 ,Chubby 还 使 用 了 一 致 性 客户 端 缓存 (Consistent Client-Side Caching) 
技术 ,这 样 做 的 目的 是 减少 通信 压力 ,降低 通信 频率 。 在 客户 端 保存 一 个 和 单元 上 数据 一 致 
的 本 地 缓存 ,这 样 需要 时 客户 可 以 直接 从 缓存 中 取出 数据 而 不 用 再 和 主 服务 器 通信 。 当 某 
个 文件 数据 或 者 元 数据 需要 修改 时 , 主 服 务 器 首先 将 这 个 修改 阻塞 ;然后 通过 查询 主 服务 器 
自身 维护 的 一 个 缓存 表 , 向 所 有 对 修改 的 数据 进行 了 缓存 的 客户 端 发 送 一 个 无 效 标志 
(Invalidation) ;客户 端 收 到 这 个 无 效 标志 后 会 返回 一 个 确认 (Acknowledge) , 主 服务 器 在 收 
到 所 有 的 确认 后 才 解 除 阻塞 并 完成 这 次 修改 。 这 个 过 程 的 执行 效率 非常 高 ,仅仅 需要 发 送 
一 次 无 效 标志 即 可 ,因为 主 服务 器 对 于 没有 返回 确认 的 节点 就 直接 认为 其 是 未 缓存 的 。 
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10.4.9 正确 性 与 性 能 


1. 一 致 性 

前 面 提 到 过 每 个 Chubby 单元 是 由 五 个 副本 组 成 的 ,这 五 个 副本 中 需要 选举 产生 一 个 
主 服务 器 ,这 种 选举 本 质 上 就 是 一 个 一 致 性 问题 。 在 实际 的 执行 过 程 中 ,Chubby 使 用 
Paxos 算法 来 解决 这 个 问题 。 

主 服务 器 产生 后 客户 端的 所 有 读 写 操作 都 是 由 主 服 务 器 来 完成 的 。 读 操作 很 简单 , 客 
户 直接 从 主 服 务 器 上 读 取 所 需 数 据 即 可 ,但 是 写 操作 就 涉及 数据 一 致 性 的 问题 了 。 为 了 保 
证 客户 的 写 操作 能 够 同步 到 所 有 的 服务 器 上 ,系统 再 次 利用 了 Paxos 算法 。 因 此 ,可 以 看 出 
Paxos 算法 在 分 布 式 一 致 性 问题 中 的 作用 是 巨大 的 。 

2. 安全 性 

Chubby 采用 的 是 ACL 形式 的 安全 保障 措施 。 系 统 中 有 三 种 ACL 名 ,分 别 是 写 ACL 
名 (Write ACL Name) . 读 ACL 名 (Read ACL Name) 和 变更 ACL 名 (Change ACL Name) 。 
只 要 不 被 覆 写 , 子 节点 都 是 直接 继承 父 节点 的 ACL 名 。ACL 同样 被 保存 在 文件 中 , 它 是 节 
点 元 数据 的 一 部 分 ,用 户 在 进行 相关 操作 时 首先 需要 通过 ACL 来 获取 相应 的 授权 。 图 10-11 
是 一 个 用 户 成 功 写 文 件 所 需 经 历 的 过 程 。 


引 成 功 写 入 


3) 读 取 写 
ACL 名 3) 查 询 


he | chinacloud 












加 请 求 写 文件 


chinacl oud 一 一 

















四 成 功 查 到 
允许 写 人 








10-11 Chubby 的 ACL 机 制 


用 户 chinacloud 请 求 向 文件 CLOUD 中 写 入 内 容 。CLOUD 首先 读 取 自 身 的 写 ACL 
名 是 fun ,接着 在 fun 中 查 到 了 chinacloud 这 一 行 记录 .于 是 返回 信息 允许 chinacloud 对 文 
件 进行 写 操作 ,此 时 chinacloud 才 被 允许 向 CLOUD 写 入 内 容 。 其 他 的 操作 和 写 操作 类 似 。 

3. 性 能 优化 

为 了 满足 系统 的 高 可 扩展 性 ,Chubby 目前 已 经 采取 了 一 些 措施 。 比 如 提高 主 服务 器 
默认 的 租约 期 、 使 用 协议 转换 服务 将 Chubby 协议 转换 成 较 简 单 的 协议 。 还 有 就 是 使 用 上 
面 提 到 的 客户 端 一 致 性 缓存 。 除 此 之 外 ,Google 的 工程 师 们 还 考虑 使 用 代理 (Proxy) 和 分 
区 (Partition) 技 术 ,虽然 目前 这 两 种 技术 并 没有 实际 使 用 ,但 是 在 设计 的 时 候 还 是 被 包含 进 
系统 ,不 排除 将 来 使 用 的 可 能 。 代 理 可 以 减少 主 服务 器 处 理 KeepAlive 以 及 读 请 求 带 来 的 
服务 器 负载 ,但 是 它 并 不 能 减少 写 操作 带 来 的 通信 量 。 不 过 根据 Google 自己 的 数据 统计 表 
明 , 在 所 有 的 请 求 中 , 写 请 求 仅 占 极 少 的 一 部 分 ,几乎 可 以 忽略 不 计 。 使 用 分 区 技术 可 以 将 
一 个 单元 的 命名 空间 (Name Space) 划 分 成 N 份 。 除 了 少量 的 跨 分 区 通信 外 ,大 部 分 的 分 区 
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都 可 以 独自 地 处 理 服务 请 求 。 通 过 分 区 可 以 减少 各 个 分 区 上 的 读 写 通信 量 ,但 不 能 减少 
KeepAlive 请 求 的 通信 量 。 因 此 ,如 果 需 要 ,将 代理 和 分 区 技术 结合 起 来 使 用 才 可 以 明显 提 
高 系统 同时 处 理 的 服务 请 求 量 。 


10.4.10 分 布 式 结构 化 数据 表 Bigtable 


Bigtable 是 Google 开发 的 基于 GFS 和 Chubby 的 分 布 式 存 储 系统 。Google 的 很 多 数 
据 ,包括 Web 索引 、 卫 星 图 像 数 据 等 在 内 的 海量 结构 化 和 半 结 构 化 数据 ,都 是 存储 在 
Bigtable 中 的 。 从 实现 上 来 看 ,Bigtable 并 没有 什么 全 新 的 技术 ,但 是 如 何 选 择 合适 的 技术 
并 将 这 些 技术 高 效 \ 巧 妙 地 结合 在 一 起 ,恰恰 是 最 大 的 难点 。Google 的 工程 师 通 过 研究 以 
及 大 量 的 实践 ,完美 实现 了 相关 技术 的 选择 及 融合 。Bigtable 在 很 多 方面 和 数据 库 类 似 , 但 
它 并 不 是 真正 意义 上 的 数据 库 。 通 过 本 节 的 学 习 , 读 者 将 会 对 Bigtable 的 数据 模型 .系统 架 
构 \ 实 现 以 及 使 用 的 一 些 数据 库 技术 有 一 个 全 面 的 认识 。 

1. 动机 与 目标 

(1) 动机 

Google 设计 Bigtable 的 动机 主要 有 如 下 三 个 方面 。 

J@ 需要 存储 的 数据 种 类 繁多 。Google 目前 向 公众 开放 的 服务 很 多 ,需要 处 理 的 数据 
类 型 也 非常 多 ,包括 URL、 网 页 内 容 、 用 户 的 个 性 化 设置 在 内 的 数据 都 是 Google 需要 经 常 
处 理 的 。 

@ 海量 的 服务 请 求 。Google 运行 着 目前 世界 上 最 繁忙 的 系统 , 它 每 时 每 刻 处 理 的 客 
户 服务 请 求 数量 是 普通 的 系统 根本 无 法 承受 的 。 

@ 商用 数据 库 无 法 满足 Google 的 需求 。 一 方面 现 有 商用 数据 库 的 设计 着 眼 点 在 于 其 
通用 性 , 面 对 Google 的 苛刻 服务 要 求 根 本 无 法 满足 ,而 且 在 数量 庞大 的 服务 器 上 根本 无 法 
成 功 部 署 普 通 的 商用 数据 库 。 另 一 方面 对 于 底层 系统 的 完全 掌控 会 给 后 期 的 系统 维护 、 升 
级 带 来 极 大 的 便利 。 

(2) 目标 

在 仔细 考察 了 Google 的 日 常 需求 后 ,Bigtable 开发 团队 确定 了 Bigtable 设计 所 需 达 到 
的 如 下 几 个 基本 目标 。 

@ 广泛 的 适用 性 。Bigtable 是 为 了 满足 一 系列 Google 产品 而 并 非特 定 产品 的 存储 
要 求 。 

@ 很 强 的 可 扩展 性 。 根 据 需 要 随时 可 以 加 入 或 撤销 服务 器 。 

@ 高 可 用 性 。 对 于 客户 来 说 .有 时 候 即 使 短暂 的 服务 中 断 也 是 不 能 忍受 的 。Bigtable 
设计 的 重要 目标 之 一 就 是 确保 几乎 所 有 的 情况 下 系统 都 可 用 。 

@ 简单 性 。 底 层 系统 的 简单 性 既 可 以 减少 系统 出 错 的 概率 ,也 为 上 层 应 用 的 开发 带 来 
便利 。 

在 目标 确定 之 后 ,Google 开发 者 就 在 现 有 的 数据 库 技术 中 进行 了 大 规模 的 筛选 ,希望 
各 种 技术 之 间 能 够 扬长 避 短 ,巧妙 地 结合 起 来 。 最 终 实 现 的 系统 也 确实 达到 了 原 定 的 目标 。 
下 面 就 开始 详细 讲解 Bigtable。 

2. 数据 模型 

Bigtable 是 一 个 分 布 式 多 维 映射 表 , 表 中 的 数据 是 通过 一 个 行 关 键 字 (Row Key) 一 个 
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列 关 键 字 (Column Key) 以 及 一 个 时 间 戳 (Time Stamp) 进 行 索引 的 。Bigtable 对 存储 在 其 
中 的 数据 不 做 任何 解析 ,一 律 看 作 字 符 串 ,具体 数据 结构 的 实现 需要 用 户 自行 处 理 。 
Bigtable 的 存储 逻辑 可 以 表示 为 : (row: string，column: string, time: int64) 一 string。 
Bigtable 数据 的 存储 格式 如 图 10-12 所 示 。 


内 容 锚 点 :cnnsi.com ” 锚 点 :my.look.ca 
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1 
cnn.com 广 - t8 
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1 





1 
1 
+ 
1 
上 
| 
1 
证 
1 
1 








图 10-12 ”Bigtable 数据 模型 


(1) 行 

Bigtable 的 行 关键 字 可 以 是 任意 的 字符 串 , 但 是 大 小 不 能 够 超过 64KB。Bigtable 和 传 
统 的 关系 型 数据 库 有 很 大 不 同 , 它 不 支持 一 般 意 义 上 的 事务 ,但 能 保证 对 于 行 的 读 写 操作 具 
有 原子 性 (Atomic)。 表 中 数据 都 是 根据 行 关键 字 进 行 排序 的 ,排序 使 用 的 是 词典 序 。 
图 10-12 是 Bigtable 数据 模型 的 一 个 典型 实例 ,其 中 com. cnn. www 就 是 一 个 行 关 键 字 。 
不 直接 存储 网 页 地 址 而 将 其 倒 排 ,这 是 Bigtable 的 一 个 巧妙 设计 。 这 样 做 至 少 会 带 来 以 下 
两 个 好 处 。 

@ 同一 地 址 域 的 网 页 会 被 存储 在 表 中 的 连续 位 置 , 有 利于 用 户 查找 和 分 析 。 

@ 倒 排 便于 数据 压缩 ,可 以 大 幅 提 高 压缩 率 。 

单个 的 大 表 由 于 规模 问题 不 利于 数据 的 处 理 ,因此 Bigtable 将 一 个 表 分 成 了 很 多 子 表 
(Tablet) ,每 个 子 表 包含 多 个 行 。 子 表 是 Bigtable 中 数据 划分 和 负载 均衡 的 基本 单位 。 有 
关子 表 的 内 容 会 在 稍 后 详细 讲解 。 

(2) 列 

Bigtable 并 不 是 简单 地 存储 所 有 的 列 关键 字 , 而 是 将 其 组 织 成 所 谓 的 列 族 (Column 
Family) ,每 个 族 中 的 数据 都 属于 同一 个 类 型 ,并 且 同 族 的 数据 会 被 压缩 在 一 起 保存 。 引 入 
了 列 族 的 概念 之 后 , 列 关 键 字 就 采用 下 述 的 语法 规则 来 定义 。 

族 名 : 限定 词 (family: qualifier) 

族 名 必须 有 意义 ,限定 词 则 可 以 任意 选 定 。 在 图 10-12 中 内 容 (Contents)、 锚 点 
(Anchor, 就 是 HTML 中 的 链接 ) 都 是 不 同 的 族 。 而 cnnsi, com 和 my. look. ca 则 是 锚 点 族 
中 不 同 的 限定 词 。 通 过 这 种 方式 组 织 的 数据 结构 清晰 明了 .含义 也 很 清楚 。 族 同时 也 是 
Bigtable 中 访问 控制 (Access Control) 的 基本 单元 ,也 就 是 说 访问 权限 的 设置 是 在 族 这 一 级 
别 上 进行 的 。 

(3) 时 间 玲 

Google 的 很 多 服务 比如 网 页 检索 和 用 户 的 个 性 化 设置 等 都 需要 保存 不 同时 间 的 数据 ， 
这 些 不 同 的 数据 版 本 必须 通过 时 间 戳 来 区 分 。 图 10-12 中 内 容 列 的 t3、t5 和 t6 表明 其 中 保 
列 的 t3.t5 和 t6 表明 其 中 保存 了 在 t3、t5 和 t6 这 三 个 时 间 获 取 的 网 页 。Bigtable 中 的 时 间 
蕉 是 64 位 整 型 数 ,具体 的 赋值 方式 可 以 采取 系统 默认 的 方式 ,也 可 以 由 用 户 自行 定义 。 
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为 了 简化 不 同 版 本 的 数据 管理 , Bigtable 目前 提供 了 两 种 设置 ; 一 种 是 保留 最 近 的 
N 个 不 同 版 本 ,图 10-12 中 数据 模型 采取 的 就 是 这 种 方法 , 它 保存 最 新 的 三 个 版 本 数据 。 另 
一 种 就 是 保留 限定 时 间 内 的 所 有 不 同 版 本 ,比如 可 以 保存 最 近 10 天 的 所 有 不 同 版 本 数据 。 
失效 的 版 本 将 会 由 Bigtable 的 垃圾 回收 机 制 自动 处 理 。 

3. 系统 架构 

Bigtable 是 在 Google 的 另外 三 个 云 计算 组 件 基 础 之 上 构建 的 ,其 基本 架构 如 图 10-13 
所 示 。 
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负责 故障 处 理 及 监控 保存 子 表 数据 及 日 主 服 务 器 的 选择 


图 10-13 ”Bigtable 基本 架构 


图 中 WorkQueue 是 一 个 分 布 式 的 任务 调度 器 , 它 主要 被 用 来 处 理 分 布 式 系统 队列 分 
组 和 任务 调度 ,关于 其 实现 ,Google 并 没有 公开 。 在 前 面 已 经 讲 过 ,GFS 是 Google 的 分 布 
式 文件 系统 ,在 Bigtable 中 GFS 主要 用 来 存储 子 表 数 据 以 及 一 些 日 志文 件 。Bigtable 还 需 
要 一 个 锁 服务 的 支持 , Bigtable 选用 了 Google 自己 开发 的 分 布 式 锁 服 务 Chubby。 在 
Bigtable 中 Chubby 主要 有 以 下 几 个 作用 。 

选取 并 保证 同一 时 间 内 只 有 一 个 主 服务 器 (Master Server) 。 

@ 获取 子 表 的 位 置信 息 。 

@ 保存 Bigtable 的 模式 信息 及 访问 控制 列表 。 

另外 在 Bigtable 的 实际 执行 过 程 中 ,Google 的 MapReduce 和 Sawzall 也 被 用 来 改善 其 
性 能 ,不 过 需要 注意 的 是 这 两 个 组 件 并 不 是 实现 Bigtable 所 必需 的 。 

Bigtable 主要 由 三 个 部 分 组 成 : 客户 端 程序 库 (Client Library) ,一 个 主 服务 器 (Master 
Server) 和 多 个 子 表 服 务 器 (Tablet Server) ,这 三 个 部 分 在 图 10-13 中 都 有 相应 的 表示 。 从 
中 可 以 看 出 ,客户 需要 访问 Bigtable 服务 时 首先 要 利用 其 库 函 数 执行 Open 操作 来 打开 一 
个 锁 ( 实 际 上 就 是 获取 了 文件 目录 ), 锁 打开 以 后 客户 端 就 可 以 和 子 表 服 务 器 进行 通信 了 。 
与 许多 具有 单个 主 节点 的 分 布 式 系 统一 样 ,客户 端 主要 与 子 表 服务 器 通信 ,几乎 不 和 主 服务 
器 进行 通信 ,这 使 得 主 服务 器 的 负载 大 大 降低 。 主 服务 主要 进行 一 些 元 数据 的 操作 以 及 子 
表 服 务 器 之 间 的 负载 调度 问题 ,实际 的 数据 是 存储 在 子 表 服 务 器 上 的 。 客 户 程序 库 的 概念 
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比较 简单 ,这 里 不 做 讲解 ,下 面 对 主 服务 器 和 子 表 服 
务 器 展开 讲解 。 

4. 主 服务 器 

主 服务 的 主要 作用 如 图 10-14 所 示 。 

当 一 个 新 的 子 表 产 生 时 , 主 服务 器 通过 一 个 加 载 
命令 将 其 分 配给 一 个 空间 足够 的 子 表 服务 器 。 创 建 
新 表 、 表 合并 以 及 较 大 子 表 的 分 裂 都 会 产生 一 个 或 多 
个 新 子 表 。 对 于 前 面 两 种 , 主 服务 器 会 自动 检测 到 。， 
因为 这 两 个 操作 是 由 主 服务 器 发 起 的 ,而 较 大 子 表 的 
分 裂 是 由 子 服务 发 起 并 完成 的 ,所 以 主 服 务 器 并 不 能 
自动 检测 到 ,因此 在 分 割 完成 之 后 子 服务 器 需要 向 主 。 图 1014 主 服务 器 的 主要 作用 
服务 发 出 一 个 通知 。 由 于 系统 设计 之 初 就 要 求 能 达 
到 良好 的 扩展 性 ,所 以 主 服务 器 必须 对 子 表 服 务 器 的 状态 进行 监控 ,以 便 及 时 检测 到 服务 器 
的 加 入 或 撤销 。Bigtable 中 主 服务 器 对 子 表 服 务 器 的 监控 是 通过 Chubby 来 完成 的 , 子 表 
服务 器 在 初始 化 时 都 会 从 Chubby 中 得 到 一 个 独占 锁 。 通 过 这 种 方式 ,所 有 的 子 表 服 务 器 
基本 信息 被 保存 在 Chubby 中 一 个 称 为 服务 器 目录 (Server Directory) 的 特殊 目录 之 中 。 主 
服务 器 通过 检测 这 个 目录 就 可 以 随时 获取 最 新 的 子 表 服 务 器 信息 ,包括 目前 活跃 的 子 表 服 
务 器 ,以 及 每 个 子 表 服务 器 上 已 经 分 配 的 子 表 。 对 于 每 个 具体 的 子 表 服务 器 , 主 服务 器 会 定 
期 向 其 询问 独占 锁 的 状态 。 如 果子 表 服务 器 的 锁 丢失 或 没有 回应 , 则 此 时 可 能 有 两 种 情况 ， 
要 么 是 Chubby 出 现 了 问题 (虽然 这 种 概率 很 小 ,但 的 确 存在 ,Google 自己 也 做 过 相关 测 
试 ) ,要 么 是 子 表 服务 器 自身 出 现 了 问题 。 对 此 主 服 务 器 首先 自己 尝试 获取 这 个 独占 锁 ,如 
果 失 败 说 明 Chubby 服务 出 现 问题 , 需 等 待 Chubby 服务 的 恢复 。 如 果 成 功 则 说 明 Chubby 
服务 良好 而 子 表 服 务 器 本 身 出 现 了 问题 。 这 种 情况 下 主 服务 器 会 中 止 这 个 子 表 服 务 器 并 将 
其 上 的 子 表 全 部 移 至 其 他 子 表 服 务 器 。 当 在 状态 监测 时 发 现 某 个 子 表 服务 器 上 负载 过 重 
时 , 主 服务 器 会 自动 对 其 进行 负载 均衡 操作 。 

基于 系统 出 现 故 障 是 一 种 常态 的 设计 理念 (Google 几乎 所 有 的 产品 都 是 基于 这 个 设计 
理念 ) ,每 个 主 服务 器 被 设 定 了 一 个 会 话 时 间 的 限制 。 当 某 个 主 服务 器 到 时 退出 后 ,管理 系 
统 就 会 指定 一 个 新 的 主 服务 器 ,这 个 主 服 务 器 的 启动 需要 经 历 以 下 四 个 步骤 。 

@ 从 Chubby 中 获取 一 个 独占 锁 ,确保 同一 时 间 只 有 一 个 主 服务 器 。 

@ 扫描 服务 器 目录 ,发现 目前 活跃 的 子 表 服务 器 。 

@ 与 所 有 的 活跃 子 表 服务 器 取得 联系 以 便 了 解 所 有 子 表 的 分 配 情况 。 

@ 通过 扫描 元 数据 表 (Metadata Table) ,发 现 未 分 配 的 子 表 并 将 其 分 配 到 合适 的 子 表 
服务 器 。 如 果 元 数据 表 未 分 配 , 则 首先 需要 将 根子 表 (Root Tablet) 加 入 未 分 配 的 子 表 中 。 
由 于 根子 表 保 存 了 其 他 所 有 元 数据 子 表 的 信息 ,确保 了 扫描 能 够 发 现 所 有 未 分 配 的 子 表 。 

在 成 功 完成 以 上 四 个 步骤 后 , 主 服务 器 就 可 以 正常 运行 了 。 

5. 表 服务 器 

Bigtable 中 实际 的 数据 都 是 以 子 表 的 形式 保存 在 子 表 服务 器 上 的 ,客户 一 般 也 只 和 子 
表 服 务 器 进行 通信 ,所 以 子 表 以 及 子 表 服务 器 是 我 们 重点 讲解 的 概念 。 子 表 服 务 器 上 的 操 
作 主 要 涉及 子 表 的 定位 、 分 配 以 及 子 表 数 据 的 最 终 存储 问题 。 其 中 子 表 分 配 在 前 面 已 经 有 
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了 详细 介绍 ,这 里 略 过 不 讲 。 在 讲解 其 他 问题 之 前 我 们 首先 介绍 一 下 SSTable 的 概念 以 及 
子 表 的 基本 结构 。 

(1) SSTable 及 子 表 基 本 结构 

SSTable 是 Google 为 Bigtable 设计 的 内 部 数据 存储 格式 。 所 有 的 SSTable 文件 都 是 
存储 在 GFS 上 的 ,用 户 可 以 查询 相应 的 值 ,图 10-15 是 SSTable 格式 的 基本 示意 图 。 








SSTable 


64KB 块 x 64KB 块 
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图 10-15 SSTable 结构 


SSTable 中 的 数据 被 划分 成 一 个 个 的 块 (Block) ,每 个 块 的 大 小 是 可 以 设置 的 ,一 般 来 
说 设置 为 64KB。 在 SSTable 的 结尾 有 一 个 索引 (Index) ,这 个 索引 保存 了 SSTable 中 块 的 
位 置信 息 , 在 SSTable 打开 时 这 个 索引 会 被 加 载 进 内 存 ,这 样 用 户 在 查找 某 个 块 时 首先 在 
内 存 中 查找 块 的 位 置信 息 ,然后 在 硬盘 上 直接 找到 这 个 块 ,这 种 查找 方法 速度 非常 快 。 由 于 
每 个 SSTable 一 般 都 不 是 很 大 ,用 户 还 可 以 选择 将 其 整体 加 载 进 内 存 , 这 样 查找 起 来 会 
更 快 。 

从 概念 上 来 讲 子 表 是 表 中 一 系列 行 的 集合 , 它 在 系统 中 的 实际 组 成 如 图 10-16 所 示 。 
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图 10-16 子 表 实 际 组 成 


每 个 子 表 都 是 由 多 个 SSTable 以 及 日 志 (Log) 文 件 构成 的 。 有 一 点 需要 注意 , 那 就 是 
不 同 子 表 的 SSTable 可 以 共享 ,也 就 是 说 某 些 SSTable 会 参与 多 个 子 表 的 构成 ,而 由 子 表 
构成 的 表 则 不 存在 子 表 重 到 的 现象 。Bigtable 中 的 日 志文 件 是 一 种 共享 日 志 , 也 就 是 说 系 
统 并 不 是 对 子 表 服务 器 上 每 个 子 表 都 单独 地 建立 一 个 日 志文 件 ,每 个 子 表 服 务 器 上 仅 保 存 
一 个 日 志文 件 , 某 个 子 表 日 志 只 是 这 个 共享 日 志 的 一 个 片段 。 这 样 会 节省 大 量 的 空间 ,但 在 
恢复 时 却 有 一 定 的 难度 ,因为 不 同 的 子 表 可 能 会 被 分 配 到 不 同 的 子 表 服务 器 上 ,一 般 情 况 下 
每 个 子 表 服务 器 都 需要 读 取 整 个 共享 日 志 来 获取 其 对 应 的 子 表 日 志 。Google 为 了 避免 这 
种 情况 出 现 ,对 日 志 做 了 一 些 改进 。Bigtable 规定 将 日 志 的 内 容 按照 键 值 进行 排序 ,这 样 不 
同 的 子 表 服 务 器 都 可 以 连续 读 取 日 志文 件 了 。 一 般 来 说 每 个 子 表 的 大 小 在 100 一 
200MB 之 间 。 每 个 子 表 服 务 器 上 保存 的 子 表 数量 可 以 从 几 十 到 上 千 不 等 ,通常 情况 下 
是 100 个 左右 。 
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(2) 子 表 地 址 
子 表 地 址 的 查询 是 经 常 碰 到 的 操作 。 在 Bigtable 系统 的 内 部 采用 的 是 一 种 类 似 B 十 树 
的 三 层 查询 体系 。 子 表 地 址 结构 如 图 10-17 所 示 。 


用 户 表 1 










其 他 元 数据 子 表 





根子 表 
chubby 文 件 (元 数据 表 中 第 一 条 记录 ) 





























10-17 子 表 地 址 结构 


所 有 的 子 表 地 址 都 被 记录 在 元 数据 表 中 ,元 数据 表 也 是 由 一 个 个 的 元 数据 子 表 
(Metadata tablet) 组 成 的 。 根 子 表 是 元 数据 表 中 一 个 比较 特殊 的 子 表 , 它 既是 元 数据 表 的 
第 一 条 记录 ,也 包含 了 其 他 元 数据 子 表 的 地 址 ,同时 Chubby 中 的 一 个 文件 也 存储 了 这 个 根 
子 表 的 信息 。 这 样 在 查询 时 ,首先 从 Chubby 中 提取 这 个 根子 表 的 地 址 ,进而 读 取 所 需 的 元 
数据 子 表 的 位 置 ,最 后 就 可 以 从 元 数据 子 表 中 找到 待 查询 的 子 表 。 除 了 这 些 子 表 的 元 数据 
之 外 ,元 数据 表 中 还 保存 了 其 他 一 些 有 利于 调试 和 分 析 的 信息 ,比如 事件 日 志 等 。 

为 了 减少 访问 开销 ,提高 客户 访问 效率 ,Bigtable 使 用 了 缓存 (Cache) 和 预 取 (Prefetch) 
技术 ,这 两 种 技术 手段 在 体系 结构 设计 中 是 很 常用 的 。 子 表 的 地 址 信息 被 缓存 在 客户 端 , 客 
户 在 寻 址 时 直接 根据 缓存 信息 进行 查找 。 一 旦 出 现 缓存 为 空 或 缓存 信息 过 时 的 情况 ,客户 
端 就 需要 按照 图 10-17 所 示 方 式 进行 网 络 的 来 回 通信 (Network Round-trips) 进 行 寻 址 ,在 
缓存 为 空 的 情况 下 需要 三 个 网 络 来 回 通信 。 如 果 缓 存 的 信息 是 过 时 的 , 则 需要 六 个 网 络 来 
回 通信 。 其 中 三 个 用 来 确定 信息 是 过 时 的 ,另外 三 个 获取 新 的 地 址 。 预 取 则 是 在 每 次 访问 
元 数据 表 时 不 仅仅 读 取 所 需 的 子 表 元 数据 ,而 是 读 取 多 个 子 表 的 元 数据 ,这 样 下 次 需要 时 就 
不 用 再 次 访问 元 数据 表 。 

(3) 子 表 数 据 存储 及 读 写 操作 

在 数据 的 存储 方面 Bigtable 做 出 了 一 个 非常 重要 的 选择 , 那 就 是 将 数据 存储 划分 成 两 
块 。 较 新 的 数据 存储 在 内 存 中 一 个 称 为 内 存 表 (Memtable) 的 有 序 缓冲 里 , 较 早 的 数据 则 以 
SSTable 格式 保存 在 GFS 中 。 这 种 技术 在 数据 库 中 不 是 很 常用 ,但 Google 还 是 做 出 了 这 
种 选择 ,实际 运行 的 效果 也 证 明 Google 的 选择 虽然 大 胆 却 是 正确 的 。 

从 图 10-18 中 可 以 看 出 读 和 写 操作 有 很 大 的 差异 性 。 做 写 操作 时 ,首先 查询 Chubby 
中 保存 的 访问 控制 列表 确定 用 户 具有 相应 的 写 权 限 , 通 过 认证 之 后 写 入 的 数据 首先 被 保存 
在 提交 日 志 (Commit Log) 中 。 提 交 日 志 中 以 重 做 记录 (Redo Record) 的 形式 保存 着 最 近 的 
一 系列 数据 更 改 , 这 些 重 做 记录 在 子 表 进 行 恢 复 时 可 以 向 系统 提供 已 完成 的 更 改 信息 。 数 
据 成 功 提交 之 后 就 被 写 人 内 存 表 中 。 在 做 读 操作 (Read Op) 时 ,首先 还 是 要 通过 认证 ,之 后 
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读 操 作 就 要 结合 内 存 表 和 SSTable 文件 来 进行 ,因为 内 存 表 和 SSTable 中 都 保存 了 数据 。 
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SSTable 文 件 
图 10-18 ”Bigtable 数据 存储 及 读 写 操作 


在 数据 存储 中 还 有 一 个 重要 问题 ,就 是 数据 压缩 的 问题 。 内 存 表 的 空间 毕竟 是 很 有 限 
的 , 当 其 容量 达到 一 个 阔 值 时 , 旧 的 内 存 表 就 会 被 停止 使 用 并 压缩 成 SSTable 格式 的 文件 。 
在 Bigtable 中 有 三 种 形式 的 数据 压缩 ,分 别 是 次 压缩 C(Minor Compaction)、 合 并 压缩 
(Merging Compaction) 和 主 压缩 (Major Compaction) 。 三 者 之 间 的 关系 如 图 10-19 所 示 。 
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合并 压缩 
图 10-19 三 种 形式 压缩 之 间 的 关系 





每 一 次 旧 的 内 存 表 停止 使 用 时 都 会 进行 一 个 次 压缩 操作 ,这 会 产生 一 个 SSTable。 但 
如 果 系统 中 只 有 这 种 压缩 ,SSTable 的 数量 就 会 无 限制 地 增加 下 去 。 由 于 读 操 作 要 使 用 
SSTable, 数 量 过 多 的 SSTable 显然 会 影响 读 的 速度 。 而 在 Bigtable 中 , 读 操作 实际 上 比 写 
操作 更 重要 ,因此 Bigtable 会 定期 地 执行 一 次 合并 压缩 的 操作 ,将 一 些 已 有 的 SSTable 和 现 
有 的 内 存 表 一 并 进行 一 次 压缩 。 主 压缩 其 实 是 合并 压缩 的 一 种 ,只 不 过 它 将 所 有 的 
SSTable 一 次 性 压缩 成 一 个 大 的 SSTable 文件 。 主 压缩 也 是 定期 执行 的 ,执行 一 次 主 压缩 
之 后 可 以 保证 将 所 有 的 被 压缩 数据 彻底 删除 ,如 此 一 来 , 既 回 收 了 空间 又 能 保证 敏感 数据 的 
安全 性 (因为 这 些 敏 感 数据 被 彻底 删除 了 ) 。 

(4) 性 能 优化 

上 述 各 种 操作 已 经 可 以 实现 Bigtable 的 所 有 功能 了 ,但 是 这 些 基 本 的 功能 很 多 时 候 并 
不 是 很 符合 用 户 的 使 用 习惯 ,或 者 执行 的 效率 较 低 。 有 些 功 能 Bigtable 自身 已 经 进行 了 优 
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化 ,包括 使 用 缓存 .共享 式 的 提交 日 志 以 及 利用 系统 的 不 变性 。 这 些 手段 在 前 面 已 经 有 了 简 
单 的 介绍 ,这 里 不 再 讲解 。 除 此 之 外 ,Bigtable 还 允许 用 户 个 人 在 基本 操作 基础 上 对 系统 进 
行 一 些 优化 。 这 一 部 分 主要 向 读者 介绍 用 户 可 以 使 用 的 几 个 重要 优化 措施 。 实 际 上 这 些 技 
术 手 段 都 是 一 些 已 有 的 数据 库 方法 ,只 不 过 Google 将 它 具体 地 应 用 于 Bigtable 之 中 黑 了 。 
(5) 局 部 性 群 组 (Locality groups) 
Bigtable 允许 用 户 将 原本 并 不 存储 在 一 起 的 数据 以 列 族 为 单位 根据 需要 组 织 在 一 
个 单独 的 SSTable 中 ,以 构成 一 个 局 部 性 群 组 。 这 实际 上 就 是 数据 库 中 垂直 分 区 技术 
的 一 个 应 用 。 在 被 Bigtable 保存 的 网 页 列 关键 字 中 ,有 的 用 户 可 能 只 对 网 页 内 容 感 兴 
趣 ,那么 它 可 以 通过 设置 局 部 性 群 组 只 看 内 容 这 一 列 。 有 的 则 会 对 诸如 网 页 语言 、 网 
站 排名 等 可 以 用 于 分 析 的 信息 比较 感 兴趣 ,也 可 以 将 这 些 列 设置 到 一 个 群 组 中 。 局 部 
性 群 组 如 图 10-20 所 示 。 
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10-20 ”局 部 性 群 组 


通过 设置 局 部 性 群 组 ,用 户 可 以 只 看 自己 感 兴趣 的 内 容 , 对 某 个 用 户 来 说 的 大 量 无 用 信 
息 无 须 读 取 。 对 于 一 些 较 小 的 且 会 被 经 常 读 取 的 局 部 性 群 组 ,用 户 可 以 将 其 SSTable 文件 
直接 加 载 进 内 存 , 这 可 以 明显 地 改善 读 取 效率 。 

(6) 压缩 

压缩 可 以 有 效 地 节省 空间 ,Bigtable 中 的 压缩 被 应 用 于 很 多 场合 。 首 先 压 缩 可 以 被 用 
在 构成 局 部 性 群 组 的 SSTable 中 ,可 以 选择 是 否 对 个 人 的 局 部 性 群 组 的 SSTable 进行 压 
缩 。Bigtable 中 这 种 压缩 是 对 每 个 局 部 性 群 组 独立 进行 的 ,虽然 这 样 会 浪费 一 些 空间 ,但 是 
在 需要 读 时 解压 速度 非常 快 。 通 常情 况 下 ,用 户 可 以 采用 两 步 压缩 的 方式 : 第 一 步 利用 
Bentley & Mcllroy 方式 (BMDiff) 在 大 的 扫描 窗口 将 常见 的 长 串 进 行 压缩 ;第 二 步 采取 
Zippy 技术 进行 快速 压缩 . 它 在 一 个 16KB 大 小 的 扫描 窗口 内 寻找 重复 数据 ,这 个 过 程 非常 
快 。 压 缩 技术 还 可 以 提高 子 表 的 恢复 速度 , 当 某 个 子 表 服 务 器 停止 使 用 后 ,需要 将 上 面 所 有 
的 子 表 移 至 另 一 个 子 表 服务 器 来 恢复 服务 。 在 转移 之 前 要 进行 两 次 压缩 ,第 一 次 压缩 减少 
了 提交 日 志 中 的 未 压缩 状态 ,从 而 减少 了 恢复 时 间 。 在 文件 正式 转移 之 前 还 要 进行 一 次 压 
缩 , 这 次 压缩 主要 是 将 第 一 次 压缩 后 遗留 的 未 压缩 空间 进行 压缩 。 完 成 这 两 步 之 后 压缩 的 
文件 就 会 被 转移 至 另 一 个 子 表 服 务 器 。 
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(7) 布 隆 过 滤器 (Bloom Filter) 

Bigtable 向 用 户 提供 了 一 种 称 为 布 隆 过 滤器 的 数学 工具 。 布 隆 过 滤器 是 巴顿 。 布 隆 在 
1970 年 提出 的 ,实际 上 它 是 一 个 很 长 的 二 进 制 向 量 和 一 系列 随机 映射 函数 ,在 读 操 作 中 确 
定子 表 的 位 置 时 非常 有 用 。 布 隆 过 滤器 的 速度 快 ,省 空间 。 而 且 它 有 一 个 最 大 的 好 处 是 绝 
不 会 将 一 个 存在 的 子 表 判 定 为 不 存在 。 不 过 布 隆 过 滤器 也 有 一 个 缺点 , 那 就 是 在 某 些 情况 
下 它 会 将 不 存在 的 子 表 判断 为 存在 。 不 过 这 种 情况 出 现 的 概率 非常 小 , 跟 它 带 来 的 巨大 好 
处 相 比 ,这 个 缺点 是 可 以 忍受 的 。 

包括 Google Analytics、Google Earth .个 性 化 搜索 .Orkut 和 RRS 阅读 器 在 内 的 几 十 个 
项 目 都 使 用 了 Bigtable。 这 些 应 用 对 Bigtable 的 要 求 以 及 使 用 的 集群 机 器 数量 都 是 各 不 相 
同 的 ,但 是 从 实际 运行 来 看 ,Bigtable 完全 可 以 满足 这 些 不 同 需求 的 应 用 ,而 这 一 切 都 得 益 
于 其 优良 的 构架 以 及 恰当 的 技术 选择 。 与 此 同时 Google 还 在 不 断 地 对 Bigtable 进行 一 系 
列 的 改进 ,通过 技术 改良 和 新 特性 的 加 入 提高 系统 的 运行 效率 及 稳定 性 。 


任务 拓展 


1. 什么 是 云 ? 
2. 为 什么 要 分 公有 云 和 私有 云 ? 它们 有 什么 特点 ? 
3. 云 灾 备 和 普通 灾 备 有 何不 同 ? 
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(人 任务 目标 

。 了解 什 么 是 大 数据 ; 

。 了 解 分 布 式 存储 的 概念 ; 

。 了 解 分 布 式 表 格 系统 和 分 布 式 数据 库 ; 

。 了 解 大 数据 存储 的 关键 技术 。 
( 项 目 背 景 

随 着 云 计 算 、 物 联网 .移动 互联 网 等 技术 的 发 展 , 人 类 社会 各 个 领域 产生 的 数据 量 都 急 
剧 增长 ,根据 IDC(International Data Corporation) 的 统计 ,2011 年 全 球 被 创建 和 复制 的 数 
据 总 量 达 1. 8ZB, 预 计 到 2020 年 会 达到 40ZB, 大 数据 时 代 已 经 到 来 ,而 且 已 成 为 社会 各 界 
关注 的 焦点 。 大 数据 的 产生 源 于 数据 产生 方式 的 改变 : 随 着 各 种 新 兴 网 络 服务 的 出 现 , 服 
务 的 内 容 已 经 从 单一 的 文本 格式 转变 为 各 种 多 媒体 形式 ,如 视频 .图 像 .声音 等 ;各 种 用 户 产 
生 数据 (UGC) ,如 博客 、 微 博 、 微 信 等 新 型 社交 媒体 中 的 发 展 ,都 增加 了 用 户 网 络 行为 数据 ; 
物 联网 传感器 网 络 的 广泛 使 用 也 自动 产生 了 大 量 的 数据 。 对 于 大 数据 ,最 具有 代表 性 的 是 
其 4V 的 特点 如 下 。 

(1) Volume: 数据 规模 大 。 

(2) Velocity: 数据 的 产生 速度 很 快 ,处 理 速度 快 。 

(3) Variety: 多 样 性 ,包括 各 种 不 同 的 类 型 和 编码 格式 ,数据 类 型 繁多 。 

(4) Veracity: 真实 性 。 


【学 项 目 描述 
只 有 真实 准确 的 数据 才 使 得 对 数据 的 分 析 有 意义 。 现 如 今 ,大 数据 已 经 成 为 一 种 重要 


的 基础 资源 ,并 形成 了 以 数据 为 中 心 .以 存储 为 中 心 的 发 展 趋势 ,因此 如 何 存 储 这 些 数量 又 
升 的 数据 已 经 成 为 企业 和 学 术 界 的 研究 热点 。 


(加 项目 分 析 
由 于 数据 量 的 爆炸 式 增长 (特别 是 非 结 构 化 数据 每 年 以 50% 的 速度 增加 )、 应 用 规模 的 
扩大 以 及 用 户 的 高 并 发 访问 等 原因 ,传统 的 数据 存储 系统 达到 瓶颈 ,不 能 胜任 大 数据 环境 下 


的 数据 的 存储 、 分 析 和 处 理工 作 。 首 先 在 数据 规模 上 ,传统 的 数据 库 已 经 不 能 满足 高 并 发 、 
高 可 靠 性 的 需求 ;其 次 大 数据 环境 下 要 处 理 的 数据 种 类 繁多 ,包括 结构 化 、 非 结构 化 及 半 结 
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构 化 的 数据 ,以 处 理 结构 化 、 同 质数 据 为 主 的 传统 数据 库 系 统 不 能 有 效 处 理 。 作 为 大 数据 基 
础 设施 的 存储 系统 必须 具有 高 的 IOPS (每 秒 IO 操作 次 数 ) 和 大 容量 ,支持 水 平 扩展 


(Scale-out)。 


/天 
人 SR 项 目 实现 

大 数据 存储 的 选择 有 NAS(Network Attached Storage) 和 分 布 式 存储 系统 。NAS 主 
要 针对 文件 级 别 的 存储 ,通过 把 多 个 存储 节点 以 网 络 连接 起 来 来 增加 存储 容量 和 处 理 能 力 。 
支持 横向 扩展 的 NAS 虽然 能 够 用 来 处 理 当 今 高 速 增长 的 数据 ,但 是 成 本 很 高 ,使 用 特定 的 
文件 系统 ,每 当 增设 磁盘 容量 的 时 候 就 会 增加 CPU、 内 存 和 网 络 资源 的 开销 ,而 且 通 常 
NAS 会 使 用 RAID-6 来 保护 数据 ,更 是 增加 了 扩展 的 成 本 。 所 以 ,分 布 式 存储 系统 应 运 而 
生 , 其 特点 是 水 平 高 度 可 扩展 ,能够 容错 、 高 可 用 、 能 快速 检索 出 海量 数据 等 。 分 布 式 存储 按 
照 其 存储 接口 可 以 分 为 对 象 存 储 、 块 存储 和 文件 存储 。 本 章 展开 介绍 分 布 式 存储 系统 和 相 
关 的 关键 技术 。 


11.1 大 数据 存储 的 概念 


“大 数据 ”通常 指 的 是 那些 数量 巨大 、 难 于 收集 处理, 分 析 的 数据 集 ,也 指 那些 在 传统 基 
础 设施 中 长 期 保存 的 数据 。 这 里 的 “大 ”有 几 层 含义 , 它 可 以 形容 组 织 的 大 小 ,而 更 重要 的 
是 , 它 界 定 了 企业 中 IT 基础 设施 的 规模 。 业 内 对 大 数据 应 用 寄予 了 无 限 的 期 望 ,商业 信息 
积累 得 越 多 价值 就 越 大 ,只 不 过 我 们 需要 一 个 方法 把 这 些 价值 挖掘 出 来 。 

也 许 人 们 对 大 数据 的 印象 主要 从 存储 容量 的 廉价 性 而 来 ,但 实际 上 ,企业 每 天 都 在 创造 
大 量 的 数据 ,而 且 越 来 越 多 ,而 人 们 正在 努力 地 从 浩如烟海 的 数据 中 寻觅 有 价值 的 商业 情 
报 。 另 一 方面 ,用 户 还 会 保存 那些 已 经 分 析 过 的 数据 ,因为 这 些 旧 数据 可 以 与 未 来 收集 的 新 
数据 进行 对 照 ,依然 有 潜在 的 利用 可 能 。 

1. 为 什么 现在 需要 大 数据 

与 以 往 相 比 ,我 们 除了 有 能 力 存 储 更 多 的 数据 量 之 外 ,还 要 面 对 更 多 的 数据 类 型 。 这 些 
数据 的 来 源 包括 网 上 交易 、 网 络 社交 活动 .自动 传感器 移动 设备 以 及 科学 仪器 等 。 除 了 那 
些 固定 的 数据 生产 源 ,各 种 交易 行为 还 可 能 加 快 数据 的 积累 速度 。 比 如 说 ,社交 类 多 媒体 数 
据 的 爆炸 性 增长 就 源 于 新 的 网 上 交易 和 记录 行为 。 数 据 永远 都 在 增长 之 中 ,但 是 ,只 有 存储 
海量 数据 的 能 力 是 不 够 的 ,因为 这 并 不 能 保证 我 们 能 够 成 功 地 从 中 搜寻 出 商业 价值 。 

2. 数据 是 重要 的 生产 要 素 

信息 时 代 ,数据 伍 然 已 成 为 一 种 重要 的 生产 要 素 , 如 同 资本 、 劳 动力 和 原材料 等 其 他 要 
素 一 样 ,而 且 作为 一 种 普遍 需求 , 它 也 不 再 局 限于 某 些 特殊 行业 的 应 用 。 各 行 各 业 的 公司 都 
在 收集 并 利用 大 量 的 数据 分 析 结 果 , 尽 可 能 地 降低 成 本 ,提高 产品 质量 ,提高 生产 效率 以 及 
创造 新 的 产品 。 例 如 ,通过 分 析 直接 从 产品 测试 现场 收集 的 数据 ,能 够 帮助 企业 改进 设计 。 
此 外 ,一 家 公司 还 可 以 通过 深入 分 析 客 户 行 为 ,对 比 大 量 的 市 场 数据 ,从 而 超越 他 的 竞争 
对 手 。 
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3. 存储 技术 必须 跟 上 

随 着 大 数据 应 用 的 爆发 性 增长 , 它 已 经 衍生 出 了 自己 独特 的 架构 ,而 且 也 直接 推动 了 存 
储 、 网 络 以 及 计算 技术 的 发 展 。 毕 竟 处 理 大 数据 这 种 特殊 的 需求 是 一 个 新 的 挑战 。 硬 件 的 
发 展 最 终 还 是 由 软件 需求 推动 的 ,就 这 个 例子 来 说 ,我 们 很 明显 地 看 到 大 数据 分 析 应 用 需求 
正在 影响 着 数据 存储 基础 设施 的 发 展 。 

从 另 一 方面 看 ,这 一 变化 对 存储 厂商 和 其 他 IT 基础 设施 厂商 未 党 不 是 一 个 机 会 。 随 
着 结构 化 数据 和 非 结构 化 数据 量 的 持续 增长 ,以 及 分 析 数 据 来 源 的 多 样 化 ,此 前 存储 系统 的 
设计 已 经 无 法 满足 大 数据 应 用 的 需要 。 存 储 厂商 已 经 意识 到 这 一 点 ,他 们 开始 修改 基于 块 
和 文件 的 存储 系统 的 架构 设计 以 适应 这 些 新 的 要 求 。 在 这 里 ,我 们 会 讨论 哪些 与 大 数据 存 
储 基础 设施 相关 的 属性 ,看 看 它们 如 何 迎 接 大 数据 的 挑战 。 

4. 容量 问题 

这 里 所 说 的 “大 容量 ”通常 可 达到 PB 级 的 数据 规模 ,因此 ,海量 数据 存储 系统 也 一 定 要 
有 相应 等 级 的 扩展 能 力 。 与 此 同时 ,存储 系统 的 扩展 一 定 要 简便 ,可 以 通过 增加 模块 或 磁盘 
柜 来 增加 容量 ,甚至 不 需要 停机 。 基 于 这 样 的 需求 ,客户 现在 越 来 越 青睐 Scale-out 架构 的 
存储 。Scale-out 集群 结构 的 特点 是 每 个 节点 除了 具有 一 定 的 存储 容量 之 外 ,内 部 还 具备 数 
据 处 理 能 力 以 及 互联 设备 。 与 传统 存储 系统 的 烟 向 式 架构 完全 不 同 ,Scale-out 架构 可 以 实 
现 无 颖 平滑 的 扩展 ,避免 存储 孤岛 。 

“大 数据 ?应 用 除了 数据 规模 巨大 之 外 ,还 意味 着 拥有 庞大 的 文件 数量 。 因 此 如 何 管理 
文件 系统 层 累积 的 元 数据 是 一 个 难题 ,处 理 不 当 会 影响 到 系统 的 扩展 能 力 和 性 能 ,而 传统 的 
NAS 系统 就 存在 这 一 撼 颈 。 所 幸 的 是 ,基于 对 象 的 存储 架构 就 不 存在 这 个 问题 , 它 可 以 在 
一 个 系统 中 管理 十 亿 级 别 的 文件 数量 ,而 且 还 不 会 像 传 统 存储 一 样 遭 过 元 数据 管理 的 困扰 。 
基于 对 象 的 存储 系统 还 具有 广 域 扩展 能 力 , 可 以 在 多 个 不 同 的 地 点 部 署 并 组 成 一 个 跨 区 域 
的 大 型 存储 基础 架构 。 

5. 延迟 问题 

“大 数据 ?应 用 还 存在 实时 性 的 问题 。 特 别 是 涉及 与 网 上 交易 或 者 金融 类 相关 的 应 用 。 
举 个 例子 来 说 ,网 络 成 衣 销 售 行业 的 在 线 广告 推广 服务 需要 实时 地 对 客户 的 浏览 记录 进行 
分 析 ,并 准确 地 进行 广告 投放 。 这 就 要 求 存储 系统 必须 能 够 支持 上 述 特性 同时 保持 较 高 的 
响应 速度 ,因为 响应 延迟 的 结果 是 系统 会 推送 “过 期 * 的 广告 内 容 给 客户 。 这 种 场景 下 ， 
Scale-out 架构 的 存储 系统 就 可 以 发 挥 出 优势 ,因为 它 的 每 一 个 节点 都 具有 处 理 和 互联 组 
件 , 在 增加 容量 的 同时 处 理 能 力也 可 以 同步 增长 。 而 基于 对 象 的 存储 系统 则 能 够 支持 并 发 
的 数据 流 ,从 而 进一步 提高 数据 吞吐 量 。 

有 很 多 “大 数据 ?应 用 环境 需要 较 高 的 IOPS 性 能 .比如 HPC 高 性 能 计算 。 此 外 ,服务 
器 虚拟 化 的 普及 也 导致 了 对 高 IOPS 的 需求 ,正如 它 改变 了 传统 IT 环境 一 样 。 为 了 迎接 这 
些 挑战 ,各 种 模式 的 固态 存储 设备 应 运 而 生 , 小 到 简单 的 在 服务 器 内 部 做 高 速 缓存 ,大 到 全 
固态 介质 的 可 扩展 存储 系统 等 都 在 蓬勃 发 展 。 

6. 并 发 访问 

一 旦 企业 认识 到 大 数据 分 析 应 用 的 潜在 价值 ,他 们 就 会 将 更 多 的 数据 集 纳 入 系统 进行 
比较 ,同时 让 更 多 的 人 分 享 并 使 用 这 些 数 据 。 为 了 创造 更 多 的 商业 价值 ,企业 往往 会 综合 
析 那 些 来 自 不 同 平台 下 的 多 种 数据 对 象 ,包括 全 局 文件 系统 在 内 的 存储 基础 设施 就 能 够 帮 
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助 用 户 解 决 数据 访问 的 问题 ,全 局 文件 系统 允许 多 个 主机 上 的 多 个 用 户 并 发 访问 文件 数据 ， 
而 这 些 数 据 则 可 能 存储 在 多 个 地 点 的 多 种 不 同类 型 的 存储 设备 上 。 

7. 安全 问题 

某 些 特殊 行业 的 应 用 ,比如 金融 数据 、 医 疗 信 息 以 及 政府 情报 等 都 有 自己 的 安全 标准 和 
保密 性 需求 。 虽 然 对 于 IT 管理 者 来 说 这 些 并 没有 什么 不 同 ,而 且 都 是 必须 遵从 的 ,但 是 ， 
大 数据 分 析 往往 需要 多 类 数据 相互 参考 ,而 在 过 去 并 不 会 有 这 种 数据 混合 访问 的 情况 ,因此 
大 数据 应 用 也 催生 出 一 些 新 的 、 需 要 考虑 的 安全 性 问题 。 

成 本 问题 “大 ”, 也 可 能 意味 着 代价 不 菲 。 而 对 于 那些 正在 使 用 大 数据 环境 的 企业 来 说 ， 
成 本 控制 是 关键 的 问题 。 想 控制 成 本 ,就 意味 着 我 们 要 让 每 一 台 设备 都 实现 更 高 的 “效率 ”， 
同时 还 要 减少 那些 昂贵 的 部 件 。 目 前 , 像 重复 数据 删除 等 技术 已 经 进入 到 主 存 储 市 场 ,而 且 
现在 还 可 以 处 理 更 多 的 数据 类 型 ,这 都 可 以 为 大 数据 存储 应 用 带 来 更 多 的 价值 ,提升 存储 效 
率 。 在 数据 量 不 断 增长 的 环境 中 ,通过 减少 后 端 存储 的 消耗 ,哪怕 只 是 降低 几 个 百分点 ,都 
能 够 获得 明显 的 投资 回报 。 此 外 ,自动 精简 配置 .快照 和 克隆 技术 的 使 用 也 可 以 提升 存储 的 
效率 。 

很 多 大 数据 存储 系统 都 包括 归档 组 件 ,尤其 对 那些 需要 分 析 历史 数据 或 需要 长 期 保存 
数据 的 机 构 来 说 ,归档 设备 必 不 可 少 。 从 单位 容量 存储 成 本 的 角度 看 ,磁带 仍然 是 最 经 济 的 
存储 介质 ,事实 上 ,在 许多 企业 中 ,使 用 支持 TB 级 大 容量 磁带 的 归档 系统 仍然 是 事实 上 的 
标准 和 惯例 。 

对 成 本 控制 影响 最 大 的 因素 是 那些 商业 化 的 硬件 设备 。 因 此 ,很 多 初次 进入 这 一 领域 
的 用 户 以 及 那些 应 用 规模 最 大 的 用 户 都 会 定制 他 们 自己 的 “硬件 平台 ”而 不 是 用 现成 的 商业 
产品 ,这 一 举措 可 以 用 来 平衡 他 们 在 业务 扩展 过 程 中 的 成 本 控制 战略 。 为 了 适应 这 一 需求 ， 
现在 越 来 越 多 的 存储 产品 都 提供 纯 软 件 的 形式 ,可 以 直接 安装 在 用 户 已 有 的 、 通 用 的 或 者 现 
成 的 硬件 设备 上 。 此 外 ,很 多 存储 软件 公司 还 在 销售 以 软件 产品 为 核心 的 软 硬 一 体 化 装置 ， 
或 者 与 硬件 厂商 结盟 ,推出 合作 型 产品 。 

8. 数据 的 积累 

许多 大 数据 应 用 都 会 涉及 法 规 遵从 问题 ,这 些 法 规 通常 要 求 数据 要 保存 几 年 或 者 几 十 年 。 
比如 医疗 信息 通常 是 为 了 保证 患者 的 生命 安全 ,而 财务 信息 通常 要 保存 7 年 。 而 有 些 使 用 
大 数据 存储 的 用 户 却 希 望 数 据 能 够 保存 更 长 的 时 间 , 因 为 任何 数据 都 是 历史 记录 的 一 部 分 ， 
而 且 数据 的 分 析 大 都 是 基于 时 间 段 进行 的 。 要 实现 长 期 的 数据 保存 ,就 要 求 存储 厂商 开发 
出 能 够 持续 进行 数据 一 致 性 检测 的 功能 以 及 其 他 保证 长 期 高 可 用 的 特性 。 同 时 还 要 实现 数 
据 直 接 在 原 位 更 新 的 功能 需求 。 

9. 灵活 性 

大 数据 存储 系统 的 基础 设施 规模 通常 都 很 大 ,因此 必须 经 过 仔细 设计 ,才能 保证 存储 系 
统 的 灵活 性 ,使 其 能 够 随 着 应 用 分 析 软 件 一 起 扩容 及 扩展 。 在 大 数据 存储 环境 中 ,已 经 没有 
必要 再 做 数据 迁移 了 ,因为 数据 会 同时 保存 在 多 个 部 署 站 点 。 一 个 大 型 的 数据 存储 基础 设 
施 一 旦 开始 投入 使 用 ,就 很 难 再 调整 了 ,因此 它 必须 能 够 适应 各 种 不 同 的 应 用 类 型 和 数据 
场景 。 

10. 应 用 感知 

最 早 一 批 使 用 大 数据 的 用 户 已 经 开发 出 了 一 些 针 对 应 用 的 定制 的 基础 设施 ,比如 针对 
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政府 项 目 开 发 的 系统 ,还 有 大 型 互联 网 服务 商 创造 的 专用 服务 器 等 。 在 主流 存储 系统 领域 ， 
应 用 感知 技术 的 使 用 越 来 越 普 遍 , 它 也 是 改善 系统 效率 和 性 能 的 重要 手段 ,所 以 ,应 用 感知 
技术 也 应 该 用 在 大 数据 存储 环境 里 。 

小 用 户 怎 么 办 ? 依赖 大 数据 的 不 仅仅 是 那些 特殊 的 大 型 用 户 群 体 ,作为 一 种 商业 需求 ， 
小 型 企业 未 来 也 一 定 会 应 用 到 大 数据 。 我 们 看 到 ,有 些 存 储 厂商 已 经 在 开发 一 些小 型 的 “大 
数据 ?存储 系统 ,主要 吸引 那些 对 成 本 比较 敏感 的 用 户 。 


11.2 分 布 式 存储 系统 介绍 


分 布 式 存储 系统 包含 多 个 自主 的 处 理 单元 ,通过 计算 机 网 络 互 联 来 协作 完成 分 配 的 任 
务 。 分 布 式 存储 系统 更 能 适应 现在 分 布 广泛 的 企业 的 组 织 结构 ,更 加 可 靠 ,响应 速度 更 快 ; 
当今 很 多 的 互联 网 应 用 在 本 质 上 就 是 分 布 式 的 ,例如 基于 Web 的 应 用 .电子 商务 .广告 推 
送 、 在 线 游戏 ,生产 控制 系统 等 ;分 布 式 架构 通过 分 而 治之 的 策略 能 够 更 好 地 处 理 当 今 我 们 
面临 的 大 规模 数据 处 理 问题 ,这 也 是 其 能 够 得 到 广泛 部 署 的 根本 原因 。 分 布 式 存储 系统 的 
目的 在 于 在 多 个 节点 上 进行 数据 存储 和 管理 ,对 外 作为 一 个 整体 提供 服务 。 分 布 式 存储 系 
统 作为 底层 管理 数据 的 基础 设施 ,让 分 布 式 处 理 更 加 简单 和 高 效 。 分 布 式 存储 的 研究 有 三 
十 多 年 ,出 现 了 很 多 种 不 同 的 系统 ,根据 系统 中 数据 存储 格式 和 存 取 接口 可 以 把 分 布 式 存储 
系统 分 为 分 布 式 文件 系统 、 分 布 式 键 值 系统 、 分 布 式 表 格 系统 以 及 分 布 式 数据 库 , 本 文 将 分 
别 介绍 几 种 典型 的 分 布 式 存储 系统 。 


11.2.1 分 布 式 文件 系统 


大 数据 存储 管理 需要 多 种 技术 的 协同 工作 ,其 中 文件 系统 为 其 提供 最 底层 存储 能 力 的 
支持 。 分 布 式 文件 系统 (Distributed File System,DFS) 是 一 个 基于 C/S 的 应 用 程序 ,允许 
来 自 不 同 终端 的 用 户 访 问 和 处 理 服 务 器 上 的 文件 。DFS 的 实现 有 很 多 ,如 NFS、Andrew 
File System、Coda 等 ,其 中 最 著名 的 是 Google 文件 系统 (Google File System,GFS)。 它 构 
建 在 大 量 普 通 的 廉价 设备 之 上 ,支持 自动 容错 ;主要 针对 文件 较 大 、 读 操作 远大 于 写 操作 的 
应 用 场景 ,GFS 把 大 文件 划分 为 64MB 的 数据 块 (Chunk); 采 用 主 从 (Master-Slave) 结 构 ， 
主 控 服务 器 用 来 实现 元 数据 管理 .副本 管理 、 自 动 负载 均衡 、 记 录 操 作 日 志 等 操作 。 很 多 其 
他 分 布 式 文件 系统 都 借鉴 了 GFS 的 思想 ,如 淘宝 文件 系统 、Facebook Haystack 等 。 

本 地 文件 系统 如 ext3、reiserfs 等 (这 里 不 讨论 基于 内 存 的 文件 系统 ) ,它们 管理 本 地 的 
磁盘 存储 资源 、 提 供 文 件 到 存储 位 置 的 映射 ,并 抽象 出 一 套 文件 访问 接口 供用 户 使 用 。 但 随 
着 互联 网 企业 的 高 速 发 展 ,这 些 企业 对 数据 存储 的 要 求 越 来 越 高 ,而 且 模 式 各 异 ,如 淘宝 主 
站 的 大 量 商品 图 片 ,其 特点 是 文件 较 小 ,但 数量 巨大 ;而 类 似 于 youtube、 优 酷 这 样 的 视频 服 
务 网 站 ,其 后 台 存 储 着 大 量 的 视频 文件 ,容量 大 多 在 数 十 兆 到 数 吉 字 节 不 等 。 这 些 应 用 场景 
都 是 传统 文件 系统 不 能 解决 的 。 分 布 式 文件 系统 将 数据 存储 在 物理 上 分 散 的 多 个 存储 节点 
上 ,对 这 些 节点 的 资源 进行 统一 的 管理 与 分 配 ,并 向 用 户 提 供 文件 系统 访问 接口 ,其 主要 解 
决 了 本 地 文件 系统 在 文件 大 小 文件 数量 .打开 文件 数 等 方面 的 限制 问题 。 
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11.2.2 典型 架构 


目前 比较 主流 的 一 种 分 布 式 文件 系统 架构 如 图 11-1 所 示 ,通常 包括 主 控 服 务 器 (或 称 
元 数据 服务 器 、 名 字 服 务 器 等 ,一般 会 配置 备用 主 控 服务 器 以 便 在 故障 时 接管 服务 ,也 可 以 
两 个 都 为 主 的 模式 ) ,多 个 数据 服务 器 (或 称 存储 服务 器 、 存 储 节点 等 ), 以 及 多 个 客户 端 , 客 
户 端 可 以 是 各 种 应 用 服务 器 ,也 可 以 是 终端 用 户 。 


$ 9. 8 
8 
了 


各 是 ,5 芋 


11-1 分 布 式 文件 系统 架构 


分 布 式 文件 系统 的 数据 存储 解决 方案 ,归根 结 底 是 将 大 问题 划分 为 小 问题 。 大 量 的 文 
件 均匀 分 布 到 多 个 数据 服务 器 上 后 ,每 个 数据 服务 器 存储 的 文件 数量 就 少 了 ,另外 通过 使 用 
大 文件 存储 多 个 小 文件 的 方式 ,总 能 把 单个 数据 服务 器 上 存储 的 文件 数 降 到 单机 能 解决 的 
规模 。 对 于 很 大 的 文件 ,将 大 文件 划分 成 多 个 相对 较 小 的 片段 ,存储 在 多 个 数据 服务 器 上 
(目前 ,很 多 本 地 文件 系统 对 超大 文件 的 支持 已 经 不 存在 问题 了 ,如 ext3 文件 系统 使 用 4KB 
块 时 ,文件 最 大 能 到 4TB,ext4 则 能 支持 更 大 的 文件 ,只 是 受 限 于 磁盘 的 存储 空间 ) 。 

理论 上 ,分布 式 文件 系统 可 以 只 由 客户 端 和 多 个 数据 服务 器 组 成 ,客户 端 根据 文件 名 决定 
将 文件 存储 到 哪个 数据 服务 器 ,但 一 旦 有 数据 服务 器 失效 时 ,问题 就 变 得 复杂 ,客户 端 并 不 知 
道 数据 服务 器 宕 机 的 消息 ,仍然 连接 它 进行 数据 存 取 ,导致 整个 系统 的 可 靠 性 极 大 地 降低 ,而 
且 完 全 有 客户 端 决定 数据 分 配 是 非常 不 灵活 的 ,其 不 能 根据 文件 特性 制定 不 同 的 分 布 策略 。 

数据 服务 器 的 状态 管理 可 分 为 分 散 式 和 集中 式 两 种 方式 ,前 者 是 让 多 个 数据 服务 器 相 
互 管 理 , 如 每 个 服务 器 向 其 他 所 有 的 服务 器 发 送 心跳 信息 ,但 这 种 方式 开销 较 大 ,控制 不 好 
容易 影响 到 正常 的 数据 服务 ,而 且 工 程 实现 较为 复杂 ;后 者 是 指 通过 一 个 独立 的 服务 器 (如 
图 11-1 中 的 主 控 服 务 器 ) 来 管理 数据 服务 器 ,每 个 服务 器 向 其 汇报 服务 状态 来 达到 集中 管 
理 的 目的 ,这 种 方式 简单 易 实现 ,目前 很 多 分 布 式 文件 系统 都 采用 这 种 方式 ,如 GFS、TFS、 
MooseFS 等 。 主 控 服 务 器 在 负载 较 大 时 会 出 现 单 点 , 较 多 的 解决 方案 是 配置 备用 服务 器 ， 
以 便 在 故障 时 接管 服务 ,如 果 需 要 , 主 备 之 间 需 要 进行 数据 的 同步 。 


11.2.3 问题 及 解决 方法 


本 小 节 主 要 讨论 基于 图 11-1 架构 的 分 布 式 文件 系统 的 相关 原理 ,工程 实现 时 需要 解决 
的 问题 和 解决 问题 的 基本 方法 。 分 布 式 文件 系统 涉及 的 主要 问题 及 解决 方法 如 图 11-2 所 
示 。 为 方便 描述 ,以 下 将 主 控 服务 器 简称 Master, 数 据 服务 器 简称 DS(Data Server) 。 
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图 11-2 主要 问题 及 解决 方法 
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11.2.4 主 控 服 务 器 


1. 命名 空间 的 维护 

Master 负责 维护 整个 文件 系统 的 命名 空间 ,并 暴露 给 用 户 使 用 ,命名 空间 的 结构 主要 
有 典型 目录 树 结构 如 MooseFS 等 ,扁平 化 结构 如 淘宝 TFS( 目 前 已 提供 目录 树 结构 支持 )， 
图 结构 (主要 面向 终端 用 户 ,方便 用 户 根据 文件 关联 性 组 织 文件 , 只 在 论文 中 看 到 过 ) 。 

为 了 维护 名 字 空 间 ,需要 存储 一 些 辅助 的 元 数据 如 文件 ( 块 ) 到 数据 服务 器 的 映射 关系 ， 
文件 之 间 的 关系 等 ,为 了 提升 效率 ,很 多 文件 系统 采取 将 元 数据 全 部 内 存 化 (元 数据 通常 较 
小 ) 的 方式 如 GFS、TFS。 有 些 系统 则 借助 数据 库 来 存储 元 数据 如 DBFS, 还 有 些 系统 则 采 
用 本 地 文件 来 存储 元 数据 如 MooseFS。 

一 种 简单 的 实现 目录 树 结构 的 方式 是 ,在 Master 上 存储 与 客户 端 完全 一 样 的 命名 空 
间 ,对 应 的 文件 内 容 为 该 文件 的 元 数据 ,并 通过 在 Master 上 采用 ReiserFS 来 进行 小 文件 存 
储 优化 ,对 于 大 文件 的 存储 (文件 数量 不 会 成 为 Master 的 瓶颈 ) ,这 种 方式 简单 易 实现 。 曾 
经 参与 的 DNFS 系统 的 开发 就 是 使 用 这 种 方式 ,DNFS 主要 用 于 存储 视频 文件 ,视频 数量 在 
百 万 级 别 ,Master 采用 这 种 方式 时 ,文件 数量 上 不 会 成 为 瓶颈 。 

2. 数据 服务 器 管理 

除了 维护 文件 系统 的 命名 空间 ,Master 还 需要 集中 管理 数据 DS, 可 通过 轮 询 DS 或 由 
DS 报告 的 方式 实现 。 在 接收 到 客户 端的 请 求 时 ,Master 需要 根据 各 个 DS 的 负载 等 信息 选 
择 一 组 (根据 系统 配置 的 副本 数 )DS 为 其 服务 ; 当 Master 发 现 有 DS 宕 机 时 ,需要 对 一 些 副 
本 数 不 足 的 文件 ( 块 ) 执 行 复制 计划 ; 当 有 新 的 DS 加 入 集群 或 是 某 个 DS 上 负载 过 高 ， 
Master 也 可 根据 需要 执行 一 些 副 本 迁移 计划 。 

如 果 Master 的 元 数据 存储 是 非 持久 化 的 , 则 在 DS 启动 时 还 需要 把 自己 的 文件 ( 块 ) 信 
息 汇 报 给 Master。 在 分 配 DS 时 ,基本 的 分 配方 法 有 随机 选取 、RR 轮转 、 低 负载 优先 等 ,还 
可 以 将 服务 器 的 部 署 作为 参考 (如 HDFS 分 配 的 策略 ) .也 可 以 根据 客户 端的 信息 ,将 分 配 
的 DS 按照 与 客户 端的 远近 排序 ,使 得 客户 端 优先 选取 离 自 己 近 的 DS 进行 数据 存 取 。 

3. 服务 调度 

Master 最 终 的 目的 还 是 要 服务 好 客户 端的 请 求 ,除了 一 些 周期 性 线程 任务 外 ,Master 
需要 服务 来 自 客户 端 和 DS 的 请 求 , 通 常 的 服务 模型 包括 单线 程 、 每 请 求 一 线程 线程 池 ( 通 
常 配 合 任务 队列 )。 单 线程 模型 下 ,Master 只 能 顺序 地 服务 请 求 , 该 方式 效率 低 ,不 能 充分 
利用 好 系统 资源 ;每 请 求 一 线程 的 方式 虽 能 并 发 地 处 理 请 求 , 但 由 于 系统 资源 的 限制 ,导致 
创建 线程 数 存 在 限制 .从 而 限制 同时 服务 的 请 求 数量 .另外 ,线程 太 多 ,线程 间 的 调度 效率 也 
是 个 大 问题 ;线程 池 的 方式 目前 使 用 较 多 ,通常 由 单独 的 线程 接受 请 求 , 并 将 其 加 入 到 任务 
队列 中 ,而 线程 池 中 的 线程 则 从 任务 队列 中 不 断 地 取出 任务 进行 处 理 。 

4. 主 备 ( 主 ) 容 灾 

Master 在 整个 分 布 式 文件 系统 中 的 作用 非常 重要 .其 维护 文件 ( 块 ) 到 DS 的 映射 ,管理 
所 有 的 DS 状态 并 在 某 些 条 件 触发 时 执行 负载 均衡 计划 等 。 为 了 避免 Master 的 单 点 问题 ， 
通常 会 为 其 配置 备用 服务 器 ,以 保证 在 主 控 服务 器 节点 失效 时 接管 其 工作 。 通 常 的 实现 方 
式 是 通过 HA、UCARP 等 软件 为 主 备 服务 器 提供 一 个 虚拟 IP 提供 服务 , 当 备 用 服务 器 检 
测 到 主 宕 机 时 ,会 接管 主 服务 器 的 资源 及 服务 。 
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如 果 Master 需要 持久 化 保存 一 些 数据 , 则 需要 将 数据 同步 到 备用 Maste 上 。 对 于 元 数 
据 内 存 化 的 情况 ,为 了 加 速 元 数据 的 构建 ,有 时 也 需 将 主 服务 器 上 的 操作 同步 到 备用 
Master 上 。 处 理 方式 可 分 为 同步 和 异步 两 种 。 同 步 方式 将 每 次 请 求 同 步 转发 至 备用 
Master 上 ,这 样 理论 上 主 备 服 务 器 时 刻 保持 一 致 的 状态 ,但 这 种 方式 会 增加 客户 端的 响应 
延迟 (在 客户 端 对 响应 延迟 要 求 不 高 时 可 使 用 这 种 方式 )。 当 备用 Master 宕 机 时 ,可 不 做 任 
何 处 理 ,等 备用 Master 起 来 后 再 同步 数据 ,或 是 暂时 停止 写 服 务 ,管理 员 介入 启动 备用 
Master 再 正常 服务 ( 需 业 务 能 容忍 )。 异 步 方 式 则 是 先 暂 存 客户 端的 请 求 信 息 ( 如 追加 至 操 
作 日 志 ) ,后 台 线程 重 放 日 志 到 备用 Master 上 ,这 种 方式 会 使 得 主 备 服 务 器 的 数据 存在 不 一 
致 的 情况 ,具体 策略 需 针对 需求 制定 。 


11.2.5 数据 服务 器 


1. 数据 本 地 存储 

数据 服务 器 负责 文件 数据 在 本 地 的 持久 化 存储 ,最 简单 的 方式 是 将 客户 每 个 文件 数据 
分 配 到 一 个 单独 的 DS 上 作为 一 个 本 地 文件 存储 ,但 这 种 方式 并 不 能 很 好 地 利用 分 布 式 文 
件 系 统 的 特性 ,很 多 文件 系统 使 用 固定 大 小 的 块 来 存储 数据 ,如 GFS、TFS、HDFS, 典 型 的 
块 大 小 为 64MB。 

对 于 小 文件 的 存储 ,可 以 将 多 个 文件 的 数据 存储 在 一 个 块 中 ,并 为 块 内 的 文件 建立 索 
引 , 这 样 可 以 极 大 地 提高 存储 空间 利用 率 。Facebook 用 于 存储 照片 的 HayStack 系统 的 本 
地 存储 方式 为 ,将 多 个 图 片 对 象 存储 在 一 个 大 文件 中 ,并 为 每 个 文件 的 存储 位 置 建立 索引 ， 
其 支持 文件 的 创建 和 删除 ,不 支持 更 新 (通过 删除 和 创建 完成 ) ,新 创建 的 图 片 追 加 到 大 文件 
的 末尾 并 更 新 索引 ,文件 删除 时 ,简单 的 设置 文件 头 的 删除 标记 ,系统 在 空闲 时 会 对 大 文件 
进行 压缩 ,把 设置 删除 标记 上 且 超 过 一 定时 限 的 文件 存储 空间 回收 (延迟 删除 策略 ) 。 淘 宝 的 
TFS 系统 采用 了 类 似 的 方式 ,对 小 文件 的 存储 进行 了 优化 ,TFS 使 用 扩展 块 的 方式 支持 文 
件 的 更 新 。 对 小 文件 的 存储 也 可 直接 借助 一 些 开源 的 KV 存储 解决 方案 ,如 Tokyo Cabinet 
(HDB、FDB、BDB、TDB)、Redis 等 。 

对 于 大 文件 的 存储 , 则 可 将 文件 存储 到 多 个 块 上 ,多 个 块 所 在 的 DS 可 以 并 行 服务 ,这 
种 需求 通常 不 需要 对 本 地 存储 做 太 多 优化 。 

2. 状态 维护 

DS 除了 简单 的 存储 数据 外 ,还 需要 维护 一 些 状态 ,首先 它 需要 将 自己 的 状态 以 心跳 包 
的 方式 周期 性 地 报告 给 Master, 使 得 Master 知道 自己 是 否 正常 工作 ,通常 心跳 包 中 还 会 包 
含 DS 当前 的 负载 状况 (CPU、 内 存 、 磁 盘 1/O、 磁 盘存 储 空间 、 网 络 W/O 等 .进程 资源 , 视 具 
体 需 求 而 定 ) ,这 些 信息 可 以 帮助 Master 更 好 地 制定 负载 均衡 策略 。 

很 多 分 布 式 文件 系统 如 HDFS 在 外 围 提供 一 套 监控 系统 ,可 以 实时 地 获取 DS 或 
Master 的 负载 状况 ,管理 员 可 根据 监控 信息 进行 故障 预防 。 

3. 副本 管理 

为 了 保证 数据 的 安全 性 ,分 布 式 文件 系统 中 的 文件 会 存储 多 个 副本 到 DS 上 , 写 多 个 副 
本 的 方式 主要 分 为 三 种 。 最 简单 的 第 一 种 方式 是 客户 端 分 别 向 多 个 DS 写 同一 份 数据 ,如 
DNFS 采用 这 种 方式 ;第 二 种 方式 是 客户 端 向 主 DS 写 数据 , 主 DS 向 其 他 DS 转发 数据 ,如 
TFS 采用 这 种 方式 ;第 三 种 方式 采用 流水 复制 的 方式 ,客户 向 某 个 DS 写 数据 ,该 DS 向 副 
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本 链 中 下 一 个 DS 转发 数据 ,依次 类 推 ,如 HDFS、GFS 采取 这 种 方式 。 

当 有 节点 宕 机 或 节点 间 负载 极 不 均匀 的 情况 下 ,Master 会 制定 一 些 副本 复制 或 迁移 计 
划 ,而 DS 实际 执行 这 些 计划 ,将 副本 转发 或 迁移 至 其 他 的 DS。DS 也 可 提供 管理 工具 ,在 
需要 的 情况 下 由 管理 员 手 动 执行 一 些 复制 或 迁移 计划 。 

4. 客户 端 

(1) 接口 

用 户 最 终 通过 文件 系统 提供 的 接口 来 存 取 数据 ,Linux 环境 下 ,最 好 莫 过 于 能 提供 
POSIX 接口 的 支持 ,这 样 很 多 应 用 (各 种 语言 皆 可 ,最 终 都 是 系统 调用 ) 能 不 加 修改 的 将 本 
地 文件 存储 替换 为 分 布 式 文件 存储 。 

要 想 文 件 系统 支持 POSIX 接口 ,一 种 方式 时 按照 VFS 接口 规范 实现 文件 系统 ,这 种 方 
式 需要 文件 系统 开发 者 对 内 核 有 一 定 的 了 解 ; 另 一 种 方式 是 借助 FUSE 软件 ,在 用 户 态 实 
现 文件 系统 并 能 支持 POSIX 接口 ,但 是 用 该 软件 包 开 发 的 文件 系统 会 有 额外 的 用 户 态 、 内 
核 态 的 切换 及 数据 拷贝 过 程 ,从 而 导致 其 效率 不 高 。 

如 果 不 能 支持 POSIX 接口 , 则 为 了 支持 不 同 语言 的 开发 者 ,需要 提供 多 种 语言 的 客户 
端 支持 ,如 常用 的 C/C++ 、Java、.PHP、Python 客户 端 。 使 用 客户 端的 方式 较 难 处 理 的 一 种 
情况 时 , 当 客户 端 升 级 时 ,使 用 客户 端 接口 的 应 用 要 使 用 新 的 功能 ,也 需要 进行 升级 , 当 应 用 
较 多 时 ,升级 过 程 非常 麻烦 。 目 前 一 种 趋势 是 提供 Restful 接口 的 支持 ,使 用 HTTP 协议 的 
方式 给 应 用 (用 户 ) 访 问 文件 资源 ,这 样 就 避免 功能 升级 带 来 的 问题 。 

另外 ,在 客户 端 接 口 的 支持 上 ,也 需 根据 系统 需求 权衡 ,比如 write 接口 ,在 分 布 式 实现 
上 较 麻 烦 ,很 难 解决 数据 一 致 性 的 问题 ,应 该 考虑 能 否 只 支持 create(update 通过 delete 和 
create 组 合 实现 ) ,或 折 中 支持 append, 以 降低 系统 的 复杂 性 。 

(2) 缓存 

分 布 式 文件 系统 的 文件 存 取 ,要 求 客户 端 先 连接 Master 获取 一 些 用 于 文件 访问 的 元 信 
息 ,这 一 过 程 一 方面 加 重 了 Master 的 负担 , 另 一 方面 增加 了 客户 端 请 求 的 响应 延迟 。 为 了 
加 速 该 过 程 , 同 时 减 小 Master 的 负担 ,可 将 元 信息 进行 缓存 ,数据 可 根据 业务 特性 缓存 在 本 
地 内 存 或 磁盘 ,也 可 缓存 在 远 端 的 cache 系统 上 ,如 淘宝 的 TFS 可 利用 tair 作为 缓存 ( 减 小 
Master 负担 、 降 低 客户 端 资源 占用 )。 

维护 缓存 需 考虑 如 何 解决 一 致 性 问题 及 缓存 替换 算法 ,一 致 性 的 维护 既 可 由 客户 端 也 
可 由 服务 器 完成 ,一 种 方式 是 客户 端 周期 性 地 使 cache 失效 或 检查 cache 的 有 效 性 ( 需 业务 
上 能 容忍 ) ,或 由 服务 器 在 元 数据 更 新 后 通知 客户 端 使 cache 失效 ( 需 维护 客户 端 状态 )。 使 
用 得 较 多 的 替换 算法 有 LRU、 随 机 替换 等 。 

(3) 其 他 

客户 端 还 可 以 根据 需要 支持 一 些 扩展 特性 ,如 将 数据 进行 加 密 来 保证 数据 的 安全 性 、 将 
数据 进行 压缩 后 降低 存储 空间 的 使 用 ,或 是 在 接口 中 封装 一 些 访问 统计 行为 ,以 支持 系统 对 
应 用 的 行为 进行 监控 和 统计 。 


11.2.6 ”HDFS 介绍 


Hadoop 分 布 式 文件 系统 (HDFS) 是 运行 在 通用 硬件 上 的 分 布 式 文件 系统 。HDFS 提 
供 了 一 个 高 度 容错 性 和 高 吞吐 量 的 海量 数据 存储 解决 方案 。HDFS 已 经 在 各 种 大 型 在 线 服 
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务 和 大 型 存储 系统 中 得 到 广泛 应 用 ,已 经 成 为 各 大 网 站 等 在 线 服 务 公司 的 海量 存储 事实 标 
准 ,多 年 来 为 网 站 客户 提供 了 可 靠 高 效 的 服务 。 

随 着 信息 系统 的 快速 发 展 ,海量 的 信息 需要 可 靠 存储 的 同时 ,还 能 被 大 量 的 使 用 者 快速 
地 访问 。 传 统 的 存储 方案 已 经 从 构架 上 越 来 越 难以 适应 近 几 年 来 的 信息 系统 业务 的 飞速 发 
展 , 成 为 业务 发 展 的 瓶 颈 和 障碍 。 

HDFS 通过 一 个 高 效 的 分 布 式 算法 ,将 数据 的 访问 和 存储 分 布 在 大 量 服务 器 之 中 ,在 可 
靠 地 多 备份 存储 的 同时 ,还 能 将 访问 分 布 在 集群 中 的 各 个 服务 器 之 上 ,是 传统 存储 构架 的 一 
个 颠覆 性 的 发 展 。HDFS 可 以 提供 以 下 特性 : 

Q@ 可 自我 修复 的 分 布 式 文件 存储 系统 ; 

@ 高 可 扩展 性 ,无 须 停机 动态 扩容 ; 

@ 高 可 靠 性 ,数据 自动 检测 和 复制 ; 

@ 高 吞吐 量 访问 ,消除 访问 瓶颈 ; 

加 使 用 低 成 本 存储 和 服务 器 构建 。 


11.2.7 分 布 式 文件 系统 HDFS 的 特性 


1. 高 吞吐 量 访问 

HDFS 的 每 个 数据 块 分 布 在 不 同 机 架 的 一 组 服务 器 之 上 ,在 用 户 访问 时 ,HDFS 将 会 计 
算 使 用 网 络 最 近 的 和 访问 量 最 小 的 服务 器 给 用 户 提供 访问 。 巾 于 数据 块 的 每 个 拷贝 都 能 提 
供给 用 户 访问 ,而 不 是 从 单数 据 源 读 取 , HDFS 对 于 单数 据 块 的 访问 将 是 传统 存储 方案 的 
数 倍 。 

对 于 一 个 较 大 的 文件 ,HDFS 将 文件 的 不 同 部 分 存放 于 不 同 服务 器 之 上 。 在 访问 大 型 
文件 时 ,系统 可 以 并 行 从 服务 器 阵列 中 的 多 个 服务 器 并 行 读 入 ,增加 了 大 文件 读 入 的 访问 
带宽 。 

通过 以 上 实现 ,HDFS 通过 分 布 式 计算 的 算法 ,将 数据 访问 均匀 分 配 到 服务 器 阵列 中 的 
每 个 服务 器 的 多 个 数据 拷贝 之 上 ,单个 硬盘 或 服务 器 的 吞吐 量 限制 都 可 以 有 数 倍 甚至 数 百 
倍 的 突破 ,提供 了 极 高 的 数据 吞吐 量 。 

2. 无 缝 容量 扩充 

HDFS 将 文件 的 数据 块 分 配 信息 存放 在 NameNode 服务 器 之 上 .文件 数据 块 的 信息 分 
布 存 放 在 DataNode 服务 器 上 。 当 整个 系统 容量 需要 扩充 时 ,只 需要 增加 DataNode 的 数 
量 , 系 统 会 自动 地 实时 将 新 的 服务 器 匹配 进 整体 阵列 之 中 。 之 后 ,文件 的 分 布 算法 会 将 数据 
块 搬迁 到 新 的 DataNode 之 中 ,不 需 任 何 系统 宕 机 维护 或 人 工 干预 。 通 过 以 上 实现 , HDFS 
可 以 做 到 在 不 停止 服务 的 情况 下 实时 地 加 入 新 的 服务 器 作为 分 布 式 文件 系统 的 容量 升级 ， 
不 需要 人 工 干预 文件 的 重新 分 布 。 

3. 高 度 容错 

HDFS 文件 系统 假设 系统 故障 (服务 器 、 网 络 、 存 储 故障 等 ) 是 常态 ,而 不 是 异常 。 因 此 
通过 多 方面 保证 数据 的 可 靠 性 。 数 据 在 写 入 时 被 复制 多 份 ,并 且 可 以 通过 用 户 自 定义 的 复 
制 策略 分 布 到 物理 位 置 不 同 的 服务 器 上 ;数据 在 读 写 时 将 自动 进行 数据 的 校 验 , 一 旦 发现 数 
据 校 验 错误 将 重新 进行 复制 ;HDFS 系统 在 后 台 自动 连续 地 检测 数据 的 一 致 性 ,并 维持 数据 
的 副本 数量 在 指定 的 复制 水 平 上 。 
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11.3 分 布 式 数据 库 


11.3.1 分 布 式 数 据 库 结 构 


分 布 式 数据 库 的 典型 定义 是 : 分 布 式 数据 库 是 一 个 数据 集合 ,这 些 数据 在 逻辑 上 属于 
同一 个 系统 ,但 物理 上 却 分 散在 计算 机 网 络 的 若干 站 点 上 ,并 且 要 求 网 络 的 每 个 站 点 具有 自 
治 的 处 理 能 力 ,能 执行 本 地 的 应 用 。 每 个 站 点 的 计算 机 还 至 少 参与 一 个 全 局 应 用 的 执行 。 

所 谓 全 局 应 用 ,要 求 使 用 通信 子 系统 在 几 个 站 点 存 取 数 据 。 这 个 定义 强调 了 分 布 式 数 
据 库 的 两 个 重要 特点 : 分 布 性 和 人 逻辑 相关 性 。 

1. DDBMS 的 工作 原理 

DDBMS(Distributed Database Management System, 分 布 式 数据 库 管 理 系 统 ) 是 分 布 
式 数 据 库 的 核心 部 分 ,就 其 性 质 可 分 为 匀 质 和 异 质 两 种 。 若 每 个 站 点 的 DDBMS 相同 , 则 是 
匀 质 的 ; 若 至 少 有 两 个 DDBMS 不 同 , 则 是 异 质 的 。 

异 质 DDBMS 要 在 不 同 DDBMS 的 不 同 数据 模型 间 进 行 转换 ,因而 比 匀 质 DDBMS 更 
复杂 。 一 般 来 说 , 若 从 头 开 始 研 制 一 个 DDBMS , 则 选择 匀 质 较 方便 , 且 通 常 都 选用 关系 模 
型 。 这 是 由 于 关系 模型 易于 分 布 管理 。 但 若 DDBMS 是 建立 在 已 有 的 若干 数据 库 之 上 , 则 
这 些 数据 库 很 可 能 有 的 是 基于 关系 模型 的 ,有 的 是 基于 层次 或 网 络 模型 的 , 即 它们 是 不 同 质 
的 ,因此 要 建立 异 质 的 DDBMS。 

用 户 处 理 器 根据 外 模式 和 概念 模式 把 用 户 命 令 翻 译 成 格式 更 适合 于 机 器 的 规范 化 命 
令 , 并 实施 完整 性 约束 ,同时 它 负 责 将 规范 化 格式 的 数据 转换 成 用 户 结果 格式 。 

数据 处 理 器 根据 概念 模式 和 内 模式 选择 通 向 物理 数据 的 最 优 或 近乎 最 优 的 访问 路 径 ， 
用 规范 化 命令 翻译 成 物理 命令 ,并 行 执行 物理 命令 ,再 送 回 结果 。 它 还 负责 将 物理 数据 转换 
成 规范 化 数据 。 这 一 部 分 功能 通常 由 DDBMS 完成 。 

DDBMS 主要 由 全 局 数据 库 控制 和 通信 系统 的 组 成 。 分 解 器 根据 分 布 模式 负责 将 来 自 
用 户 处 理 器 的 规范 化 命令 翻译 成 一 个 分 布 执行 策略 ,指明 各 数据 处 理 器 应 完成 的 命令 。 分 
布 式 执行 监测 器 负责 分 布 策略 的 正确 执行 以 及 保证 分 布 环 境 中 事务 的 原子 性 。 通 信子 系统 
负责 在 网 络 的 各 计算 面 站 点 间 传 输 命令 和 数据 。 局 部 执行 监视 器 负责 监视 执行 分 布 策 略 中 
的 本 地 部 分 。 合 并 器 把 来 自 几 个 数据 处 理 器 的 结果 组 合 起 来 ,形成 最 终结 果 。 

各 站 点 计算 机 的 自治 程度 也 是 分 布 式 数据 库 系统 的 一 个 重要 特性 。 它 与 分 解 器 和 分 布 
执行 监视 器 所 处 的 位 置 密切 相关 。 若 分 解 器 和 分 布 式 执行 监视 器 处 在 外 部 模式 以 上 ,这 时 
分 布 模式 实际 只 存在 于 程序 员 的 脑海 之 中 ,是 一 种 由 程序 员 来 联系 的 系统 。 若 它们 处 在 外 
部 模式 以 下 概念 模式 以 上 , 则 是 联邦 式 DDBMS。 若 它们 处 在 概念 模式 以 下 内 部 模式 以 上 ， 
则 称 为 紧 耦 合 的 分 布 式 DDBMS。 若 它们 在 内 模式 以 下 , 则 是 集中 式 DDBMS 的 体系 结构 。 
分 解 器 和 分 布 式 执行 监视 器 所 处 的 位 置 越 往 下 ,站 点 的 自治 能 力 越 弱 。 

2. DDBMS 技术 

分 布 式 数据 库 设计 包括 外 模式 ,全 局 模式 ,分 段 模式 ,分 配 模式 和 各 站 点 内 模式 的 定义 。 

设计 时 应 考虑 到 下 述 目 标 : 提高 处 理 的 本 地 性 以 提高 响应 速度 和 降低 处 理 成 本 ; 提高 
数据 的 可 用 性 和 可 靠 性 ;合理 地 分 布 工作 负荷 以 提高 并 行 处 理 的 能 力 等 。 
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关系 分 段 的 方法 有 水 平分 段 (又 分 为 简单 水 平分 段 和 诱导 水 平分 段 )、 垂 直 分 段 和 混合 
分 段 。 设 计 分 段 时 应 该 遵守 完整 性 约束 规则 、 重 构 性 条 件 规则 和 不 相交 性 条 件 规则 。 

复制 副本 的 方法 可 以 提高 数据 的 可 用 性 和 可 靠 性 以 及 处 理 的 局 部 性 。 但 对 副本 要 加 以 
控制 ,使 得 对 用 户 是 透明 的 , 即 对 用 户 来 说 好 像 只 存在 一 个 副本 一 样 。 一 般 来 说 ,查询 只 需 
对 一 个 副本 进行 ;而 更 新 则 要 对 所 有 副本 进行 ,这 使 得 更 新 的 算法 变 得 复杂 。 

3. 目录 管理 

分 布 式 数据 库 的 目录 中 存放 了 系统 为 保证 正确 、 有 效 地 访问 数据 而 要 使 用 的 全 部 信息 。 
一 般 应 包括 各 级 模式 的 描述 .访问 方法 的 描述 ,关于 数据 库 的 统计 数据 和 一 致 性 信息 等 。 系 
统 根据 这 些 信 息 将 用 户 查询 转换 为 物理 数据 库 上 的 查询 ,并 进行 查询 优化 ,选择 一 条 最 佳 的 
存 取 路 径 进 行事 务 管理 ,以 及 进行 安全 性 和 完整 性 检查 等 。 

目录 的 管理 有 多 种 方式 。 最 基本 的 三 种 方式 是 : 集中 式 目 录 , 只 有 一 个 站 点 存放 目录 ; 
全 复制 目录 ,每 个 站 点 都 存放 目录 ;局 部 目录 ,每 个 站 点 只 含有 本 地 数据 库 的 目录 。 可 以 把 
目录 本 身 作 为 一 个 特殊 的 系统 库 来 对 待 , 则 对 它 也 有 检索 、 更 新 、 并 发 控制 等 访问 和 维护 的 
问题 。 

4. 查询 处 理 及 其 优化 

这 是 分 布 式 数据 库 的 主要 技术 问题 之 一 。 分 布 式 查 询 处 理 负 责 将 用 户 查 询 转换 为 各 站 
点 上 的 物理 查询 ,并 负责 合并 各 子 查 询 结 果 以 得 到 最 后 结果 。 

查询 的 效率 问题 是 个 关键 。 因 此 对 用 户 查 询 程 序 应 加 以 优化 ,寻找 一 种 使 查询 费用 最 
少 的 执行 策略 ,这 个 费用 等 于 传输 费用 和 局 部 费用 之 和 。 有 时 局 部 费用 相对 于 传输 费用 可 
以 忽略 不 计 , 如 大 型 广域网 联接 的 系统 。 但 在 高 速 的 局 域 网 中 ,局 部 费用 也 必须 考虑 。 


11.3.2 分 布 式 并 发 控制 技术 


事务 是 一 个 应 用 或 一 个 应 用 的 一 部 分 , 它 是 数据 库 的 一 致 性 单位 , 即 在 事务 的 执行 前 后 
数据 库 都 必须 是 一 致 的 。 分 布 事务 管理 必须 保证 事务 具有 原子 性 持久 性 、 可 串 行 性 和 隔离 
性 。 在 大 多 数 系统 中 是 这 样 得 到 的 , 即 在 现 有 的 本 地 事务 管理 程序 上 面 用 两 阶段 托付 协议 
来 获得 可 靠 性 ,用 两 阶段 锁定 来 进行 并 发 控制 ,以 及 用 超时 来 解决 死 锁 检测 。 

两 阶段 托付 协议 确保 同一 事务 的 子 事务 全 部 托付 或 全 部 终止 ,不 管 有 无 发 生 故障 ; 两 
阶段 托付 在 不 丢失 运行 记录 信息 的 情况 下 可 从 任何 故障 恢复 。 两 阶段 锁定 机 构 要 求全 部 子 
事务 在 生长 阶段 获得 锁定 而 在 收缩 阶段 释放 锁定 。 用 于 死 锁 检测 的 超时 机 构 在 那些 事务 可 
能 因 死 锁 而 等 待 时 简单 地 使 它们 终止 。 

并 发 控制 是 分 布 式 事务 管理 的 基本 任务 之 一 ,其 目的 是 保证 分 布 式 数据 库 系 统 中 多 个 
事务 的 并 发 、 高 效 及 正确 地 执行 。 并 发 控制 用 来 保证 事务 的 可 串 行 性 , 即 事 务 的 并 发 执行 等 
价 于 它们 按 某 种 次 序 的 串 行 执行 ,从 而 为 用 户 提供 了 并 发 透明 性 。 

目前 已 提出 了 大 量 的 并 发 控制 方法 ,最 基本 的 有 封锁 方法 .时 间 印 方法 和 乐观 方法 等 。 
时 间 印 方法 和 乐观 方法 理论 上 研究 得 较 多 ,大 多 数 原 型 DDBMS 和 商品 化 DDBMS 采用 二 
段 锁 方法 。 

1. 封锁 法 

对 于 由 于 共享 而 产生 的 冲突 ,一 般 可 采用 封锁 技术 。 即 在 对 数据 操作 之 前 , 先 向 并 发 控 
制 机 构 提 出 封锁 申请 ,如 果 不 与 其 他 事务 发 生 冲 突 , 申 请 被 批准 ,系统 对 数据 加 上 锁 标 志 ; 玫 
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则 令 其 等 待 ,直至 其 他 事务 释放 对 此 数据 的 封锁 。 

封锁 方法 中 的 一 个 重要 问题 是 封锁 粒度 的 选择 。 理 想 的 情况 是 只 封锁 与 操作 有 关 的 数 
据 集 ,通常 称 为 完整 性 相关 域 。 为 了 保持 数据 完整 性 ,至 少 应 封锁 完整 性 相关 域 中 的 数据 ， 
从 而 使 其 中 任何 施加 于 现 有 数据 集合 的 操作 所 影响 的 数据 都 置 于 封锁 之 中 。 封 锁 分 为 读 锁 
和 写 锁 ,也 称 共享 锁 和 排他 锁 。 当 事务 出 现 冲 突 操 作 时 ,通过 加 锁 原则 及 锁 的 相 容 性 机 制 

冲突 操作 的 可 串 行 化 调度 : 当 数据 共享 时 ,事务 并 行 执行 ; 当 数据 排 它 时 事务 串 行 执 
行 。 使 用 锁 模 型 实现 并 发 的 最 著名 算法 是 两 段 锁 协议 。 其 基本 方法 是 任何 事务 对 数据 项 操 
作 之 前 先 加 锁 。 加 锁 的 方法 是 ,在 事务 中 的 全 部 加 锁 操作 在 第 一 次 解锁 操作 前 完成 。 锁 方 
式 中 要 进行 死 锁 消除 、 预 防 、 检 测 处 理 。 在 集中 式 数 据 库 管理 系统 中 通过 两 段 锁 协 议 可 以 破 
坏死 锁 的 形成 条 件 ,以 保证 事务 调度 的 正确 性 。 

但 是 ,在 分 布 式 数据 库 管理 系统 中 ,要 对 各 自分 散 而 又 有 共享 要 求 的 数据 进行 集中 统一 
的 管理 ,并 用 统一 的 描述 使 分 散在 各 地 的 应 用 数据 在 用 户 看 来 全 局 统一 在 一 个 数据 库 中 ,这 
给 事务 的 并 发 控制 提出 了 更 高 要 求 。 

在 分 布 式 环境 下 ,如 果 在 分 布 式 数据 库 系统 中 没有 重复 存储 的 数据 ,可 以 使 用 分 布 式 锁 
技术 。 其 实现 方法 是 ,对 每 个 节点 保留 一 个 局 部 锁 管理 器 ,处 理 对 存储 在 本 地 的 数据 加 锁 和 
释放 锁 的 请 求 。 当 分 布 式 数据 库 系统 中 有 多 处 重复 存储 的 数据 时 ,可 采用 集中 式 锁 技 术 , 即 
仅 有 一 个 锁 管理 器 ,该 管理 器 放 在 唯一 一 个 节点 上 ,所 有 的 加 锁 和 释放 锁 的 请 求 都 在 该 节点 
上 处 理 。 此 外 ,在 分 布 式 环境 下 的 锁 方 法 ,还 有 混合 锁 技术 、 主 副本 锁 协 议 等 。 

封锁 法 实现 了 一 种 并 发 控制 ,可 以 满足 一 般 数据 库 应 用 对 并 发 控制 的 要 求 , 但 是 也 有 自 
身 的 缺点 , 那 就 是 开销 大 。 事 务 加 锁 都 有 一 定 的 开销 ,还 会 降低 事务 的 并 发 性 。 以 锁 为 基础 
的 并 发 控制 算法 在 实际 DDBMS 中 应 用 较为 广泛 ,例如 ,在 Oracle 系统 中 并 发 控制 的 实现 
就 是 采用 锁 方法 。 

2. 时 间 印 法 

所 谓 时 间 印 法 就 是 在 每 个 事务 启动 运行 时 ,并 发 控制 机 制 赋予 其 唯一 一 个 时 间 印 (通常 
为 事务 的 启动 时 间 ) ,以 实现 多 事务 的 可 串 行 性 。 后 继 事务 有 较 大 的 时 间 印 ,事务 的 时 间 印 
一 直 保持 到 事务 结束 。 

此 外 ,每 个 数据 实体 都 有 时 间 印 ,分 为 读 时 间 印 和 写 时 间 印 。 读 时 间 印 即 数据 上 一 次 被 
读 出 的 时 间 , 写 时 间 印 即 数据 最 近 被 写 入 的 时 间 。 只 有 当时 间 印 比 数据 项 上 的 时 间 印 大 或 
者 相当 的 事务 ,才能 执行 对 数据 的 操作 并 在 操作 完成 后 置 数据 项 的 时 间 印 为 事务 和 数据 项 
时 间 印 的 最 大 值 , 和 否则 拒绝 令 操 作 重 启 。 这 种 方法 使 事务 的 并 行 等 价 于 特定 的 串 行 序列 , 即 
按时 间 印 递增 的 序列 ,一 般 不 会 产生 死 锁 。 

在 分 布 式 环境 下 ,如 果 能 够 解决 所 有 事务 生成 唯一 时 间 印 的 策略 ,集中 式 时 间 印 技术 就 
可 以 直接 应 用 于 分 布 式 数据 库 管 理 系统 。 实 际 上 ,在 分 布 式 策略 中 ,每 个 节点 都 使 用 本 地 的 
逻辑 计数 器 或 时 钟 产生 局 部 的 时 间 印 ,全 局 的 时 间 印 通过 在 局 部 的 时 间 印 前 加 上 各 节点 的 
标识 符 来 获得 ,这 样 获得 的 时 间 印 是 唯一 的 。 

3. 了 唯一 时 间 印 

采用 时 间 印 的 并 行 控制 算法 主要 有 两 种 : 基本 时 间 印 法 和 保守 时 间 印 法 。 主 要 缺点 是 
使 事务 重新 启动 的 次 数 较 多 。 为 解决 这 个 问题 ,提出 保守 时 间 印 法 ,该 方法 的 主要 特点 是 不 
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会 拒绝 任何 操作 ,从 而 不 会 重启 事务 。 

处 理 方法 是 当 出 现 冲突 操作 时 ,把 较 新 的 缓冲 起 来 ,等 待 较 旧 的 操作 执行 完成 后 再 执行 
被 缓冲 起 来 的 操作 。 这 就 需要 确定 何 时 所 有 的 事务 操作 均 已 执行 完 。 但 这 可 能 引发 死 锁 的 
情况 ,也 可 能 出 现 某 一 场地 被 阻 断 的 情况 。 事实 上 ,避免 死 锁 的 唯一 方法 是 超时 后 发 送 一 个 
空 操 作 。 

在 分 布 式 数据 库 管理 系统 中 ,数据 的 可 用 性 和 可 靠 性 从 某 种 角度 看 是 矛盾 的 。 对 于 可 
用 性 和 可 靠 性 要 求 较 高 的 应 用 ,可 以 采用 封锁 和 时 间 印 相 结 合 的 方法 ,可 以 避免 错误 、 避 免 
死 锁 ,必要 时 要 考虑 采用 容错 和 重 构 技术 来 提高 可 靠 性 。 


11.3.3 NoSQL 数据 库 介 绍 


1. 什么 是 NoSQL 

大 家 有 没有 听 说 过 NoSQL 呢 ? 近年 ,这 个 词 极 受 关注 。 看 到 NoSQL 这 个 词 ,大 家 可 
能 会 误 以 为 是 “No!l SQL” 的 缩写 ,并 深 感 疑惑 :“SQL 怎么 会 没有 必要 了 呢 ?" 但 实际 上 , 它 
是 Not Only SQL 的 缩写 。 它 的 意义 是 : 适用 关系 型 数据 库 的 时 候 就 使 用 关系 型 数据 库 ,不 
适用 的 时 候 也 没有 必要 非 使 用 关系 型 数据 库 不 可 ,可 以 考虑 使 用 更 加 合适 的 数据 存储 。 

为 弥补 关系 型 数据 库 的 不 足 , 各 种 各 样 的 NoSQL 数据 库 应 运 而 生 。 

为 了 更 好 地 了 解 本 书 所 介绍 的 NoSQL 数据 库 , 对 关系 型 数据 库 的 理解 是 必 不 可 少 的 。 
那么 ,就 让 我 们 先 来 看 一 看 关系 型 数据 库 的 历史 、 分 类 和 特征 吧 。 

2. 关系 型 数据 库 简 史 

1969 年 , 埃 德 加 。 弗 兰 克 。 科 德 (Edgar Frank Codd) 发 表 了 划时代 的 论文 ,首次 提出 
了 关系 数据 模型 的 概念 。 但 可 惜 的 是 ,刊登 论文 的 IBM Research Repor 只 是 IBM 公司 的 
内 部 刊物 ,因此 论文 反响 平平 。1970 年 ,他 再 次 在 刊物 Communication of the ACM 上 发 表 
了 题 为 A Relational Model of Data for Large Shared Data banks (大 型 共享 数据 库 的 关 
系 模型 ) 的 论文 ,终于 引起 了 大 家 的 关注 。 

科 德 所 提出 的 关系 数据 模型 的 概念 成 为 现今 关系 型 数据 库 的 基础 。 当 时 的 关系 型 数据 
库 由 于 硬件 性 能 低劣 、 处 理 速度 过 慢 而 迟 迟 没有 得 到 实际 应 用 。 但 之 后 随 着 硬件 性 能 的 提 
升 ,加 之 使 用 简单 性 能 优越 等 优点 ,关系 型 数据 库 得 到 了 广泛 的 应 用 。 

3. 通用 性 及 高 性 能 

虽然 这 是 在 讲解 NoSQL 数据 库 , 但 有 一 个 重要 的 大 前 提 , 请 大 家 一 定 不 要 误解 。 这 个 
大 前 提 就 是 “关系 型 数据 库 的 性 能 绝对 不 低 , 它 具有 非常 好 的 通用 性 和 非常 高 的 性 能 ”。 毫 
无 疑问 ,对 于 绝 大 多 数 的 应 用 来 说 它 都 是 最 有 效 的 解决 方案 。 

关系 型 数据 库 作 为 应 用 广泛 的 通用 型 数据 库 , 它 的 突出 优势 主要 有 以 下 几 点 : 

中 保持 数据 的 一 致 性 (事务 处 理 ) ; 

@ 由 于 以 标准 化 为 前 提 , 数 据 更 新 的 开销 很 小 (相同 的 字段 基本 上 都 只 有 一 处 ); 

@ 可 以 进行 JOIN 等 复杂 查询 ; 

@ 存在 很 多 实际 成 果 和 专业 技术 信息 (成 熟 的 技术 ) 。 

这 其 中 ,能 够 保持 数据 的 一 致 性 是 关系 型 数据 库 的 最 大 优势 。 在 需要 严格 保证 数据 一 
致 性 和 处 理 完整 性 的 情况 下 ,用 关系 型 数据 库 是 肯定 没有 错 的 。 但 是 有 些 情况 不 需要 
JOIN, 对 上 述 关 系 型 数据 库 的 优点 也 没有 什么 特别 需要 ,这 时 似乎 也 就 没有 必要 拘泥 于 关 
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系 型 数据 库 了 。 

4. 关系 型 数据 库 的 不 足 

就 像 之 前 提 到 的 那样 ,关系 型 数据 库 的 性 能 非常 高 。 但 是 它 毕竟 是 一 个 通用 型 的 数据 
库 ,并 不 能 完全 适应 所 有 的 用 途 。 具 体 来 说 它 并 不 擅长 以 下 处 理 : 

@ 大 量 数据 的 写 和 处理; 

@ 为 有 数据 更 新 的 表 做 索引 或 表 结 构 (schema) 变 更 ; 

@ 字段 不 固定 的 应 用 ; 

@ 对 简单 查询 需要 快速 返回 结果 的 处 理 。 

5.NoSQL 数据 库 弥 补 关 系 型 数据 库 的 不 足 

关系 型 数据 库 应 用 广泛 ,能 进行 事务 处 理 和 JOIN 等 复杂 处 理 。 相 对 地 ,NoSQL 数据 
库 只 应 用 在 特定 领域 ,基本 上 不 进行 复杂 的 处 理 , 但 它 恰恰 弥补 了 之 前 所 列举 的 关系 型 数据 
库 的 不 足 之 处 。 

(1) 易于 数据 的 分 散 

如 前 所 述 ,关系 型 数据 库 并 不 擅长 大 量 数据 的 写 入 处 理 。 原 本 关系 型 数据 库 就 是 以 
JOIN 为 前 提 的 ,也 就 是 说 ,各 个 数据 之 间 存 在 关联 是 关系 型 数据 库 得 名 的 主要 原因 。 为 了 
进行 JOIN 处 理 ,关系 型 数据 库 不 得 不 把 数据 存储 在 同一 个 服务 器 内 ,这 不 利于 数据 的 分 
散 。 相 反 ,NoSQL 数据 库 原本 就 不 支持 JOIN 处 理 , 各 个 数据 都 是 独立 设计 的 ,很 容易 把 数 
据 分 散 到 多 个 服务 器 上 。 由 于 数据 被 分 散 到 了 多 个 服务 器 上 ,减少 了 每 个 服务 器 上 的 数据 
量 , 即 使 要 进行 大 量 数据 的 写 入 操作 ,处 理 起 来 也 更 加 容易 。 同 理 , 数 据 的 读 和 操作 当然 也 
同样 容易 。 

(2) 提升 性 能 和 增 大 规模 

下 面 说 一 点 题 外 话 ,如 果 想 要 使 服务 器 能 够 轻松 地 处 理 更 大 量 的 数据 ,那么 只 有 两 个 选 
择 : 一 是 提升 性 能 ,二 是 增 大 规模 。 下 面 我 们 来 整理 一 下 这 两 者 的 不 同 。 

首先 ,提升 性 能 指 的 就 是 通过 提升 现行 服务 器 自身 的 性 能 来 提高 处 理 能 力 。 这 是 非常 
简单 的 方法 ,程序 方面 也 不 需要 进行 变更 ,但 需要 一 些 费 用 。 若 要 购买 性 能 翻 倍 的 服务 器 ， 
需要 花费 的 资金 往往 不 只 是 原来 的 2 倍 , 可 能 需要 多 达 5 一 10 倍 。 这 种 方法 虽然 简单 ,但 是 
成 本 较 高 。 

另 一 方面 , 增 大 规模 指 的 是 使 用 多 台 廉 价 的 服务 器 来 提高 处 理 能 力 。 它 需要 对 程序 进 
行 变更 ,但 由 于 使 用 廉价 的 服务 器 ,可 以 控制 成 本 。 另 外 ,以 后 只 要 依 葫芦 画 标 增加 廉价 服 
务 器 的 数量 就 可 以 了 。 

(3) 不 对 大 量 数据 进行 处 理 是 否 就 没有 使 用 的 必要 

NoSQL 数据 库 基 本 上 来 说 为 了 “使 大 量 数据 的 写 入 处 理 更 加 容易 (让 增加 服务 器 数量 
更 容易 )” 而 设计 的 。 但 如 果 不 是 对 大 量 数据 进行 操作 , NoSQL 数据 库 的 应 用 就 没有 意 
义 吗 ? 

答案 是 否定 的 。 的 确 , 它 在 处 理 大 量 数 据 方面 很 有 优势 。 但 实际 上 NoSQL 数据 库 还 
有 以 下 各 种 各 样 的 特点 ,如 果 能 够 恰当 地 利用 这 些 特 点 ,将 会 是 非常 有 帮助 的 。 

a@ 希望 顺畅 地 对 数据 进行 缓存 (Cache) 处 理 。 

@ 希望 对 数组 类 型 的 数据 进行 高 速 处 理 。 

@ 希望 进行 全 部 保存 。 
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6. 多 样 的 NoSQL 数据 库 

NoSQL 数据 库存 在 着 “key-value 存储 “文档 型 数据 库 ”“ 列 存储 数据 库 ” 等 各 种 各 样 的 
种 类 ,每 种 数据 库 又 包含 各 自 的 特点 。 下 面 让 我 们 一 起 来 了 解 一 下 NoSQL 数据 库 的 种 类 

NoSQL 说 起 来 简单 ,但 实际 上 到 底 有 多 少 种 呢 ? 我 在 提 笔 的 时 候 ,到 NoSQL 的 官方 
网 站 上 确认 了 一 下 ,竟然 已 经 有 122 种 了 。 另 外 官方 网 站 上 也 介绍 了 本 书 没有 涉及 的 图 形 
数据 库 和 对 象 数 据 库 等 各 个 类 别 。 不 知 不 觉 间 ,已 经 出 现 了 这 么 多 的 NoSQL 数据 库 。 

下 面 将 为 大 家 介绍 具有 代表 性 的 NoSQL 数据 库 。 

1) key-value 存储 

这 是 最 常见 的 NoSQL 数据 库 , 它 的 数据 是 以 key-value 的 形式 存储 的 。 虽 然 它 的 处 理 
速度 非常 快 ,但 是 基本 上 只 能 通过 key 的 完全 一 致 查询 获取 数据 。 根 据 数据 的 保存 方式 可 
以 分 为 临时 性 \ 永 久 性 和 两 者 兼 具 三 种 。 

(1) 保存 方式 为 临时 性 

memcached 属于 临时 性 类 型 。 所 谓 临时 性 就 是 “数据 有 可 能 丢失 ”的 意思 。memcached 把 
所 有 数据 都 保存 在 内 存 中 ,这 样 保存 和 读 取 的 速度 非常 快 ,但 是 当 memcached 停止 时 ,数据 就 
不 存在 了 。 由 于 数据 保存 在 内 存 中 ,所 以 无 法 操作 超出 内 存 容 量 的 数据 ( 旧 数 据 会 丢失 )。 

J@D 在 内 存 中 保存 数据 ; 

@ 可 以 进行 非常 快速 的 保存 和 读 取 处 理 ; 

@ 数据 有 可 能 丢失 。 

(2) 保存 方式 为 永久 性 

Tokyo Tyrant、Flare、ROMA 等 属于 永久 性 类 型 。 和 临时 性 相反 ,所 谓 永久 性 就 是 “ 数 
据 不 会 丢失 ”的 意思 。 这 里 的 key-value 存储 不 像 memcached 那样 在 内 存 中 保存 数据 ,而 是 
把 数据 保存 在 硬盘 上 。 与 memcached 在 内 存 中 处 理 数据 比 起 来 ,由 于 必然 要 发 生 对 硬盘 的 
WO 操作 ,所 以 性 能 上 还 是 有 差距 的 。 但 数据 不 会 丢失 是 它 最 大 的 优势 。 

Oa 在 硬盘 上 保存 数据 ; 

@ 可 以 进行 非常 快速 的 保存 和 读 取 处 理 ( 但 无 法 与 memcached 相 比 ); 

@ 数据 不 会 丢失 。 

(3) 保存 方式 兼 具 临 时 性 和 永久 性 

Redis 属于 两 者 兼 具 。Redis 有 些 特殊 , 兼 具 临 时 性 和 永久 性 , 且 集 合 了 临时 性 key- 
value 存储 和 永久 性 key-value 存储 的 优点 。Redis 首先 把 数据 保存 到 内 存 中 ,在 满足 特定 
条 件 ( 默 认 是 15 分 钟 一 次 以 上 ,5 分 钟 内 10 个 以 上 ,1 分 钟 内 10 000 个 以 上 的 key 发 生变 
更 ) 的 时 候 将 数据 写 入 到 硬盘 中 。 这 样 既 确保 了 内 存 中 数据 的 处 理 速度 ,又 可 以 通过 写 入 硬 
盘 来 保证 数据 的 永久 性 。 这 种 类 型 的 数据 库 特 别 适 合 于 处 理 数组 类 型 的 数据 。 

@ 同时 在 内 存 和 硬盘 上 保存 数据 ; 

@ 可 以 进行 非常 快速 的 保存 和 读 取 处 理 ; 

@ 保存 在 硬盘 上 的 数据 不 会 消失 (可 以 恢复 ); 

@ 适合 于 处 理 数组 类 型 的 数据 。 

2) 面向 文档 的 数据 库 

MongoDB、CouchDB 属于 这 种 类 型 。 它 们 属于 NoSQL 数据 库 , 但 与 key-value 存储 
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相 异 。 

@ 不 定义 表 结 构 。 面 向 文档 的 数据 库 具 有 以 下 特征 : 即使 不 定义 表 结 构 , 也 可 以 像 定义 
了 表 结 构 一 样 使 用 。 关 系 型 数据 库 在 变更 表 结 构 时 比较 费事 ,而 且 为 了 保持 一 致 性 还 需 修改 
程序 。 然 而 NoSQL 数据 库 则 可 省 去 这 些 麻 烦 ( 通 常 程序 都 是 正确 的 ) ,确实 是 方便 快捷 。 

@ 可 以 使 用 复杂 的 查询 条 件 。 跟 key-value 存储 不 同 的 是 ,面向 文档 的 数据 库 可 以 通 
过 复杂 的 查询 条 件 来 获取 数据 。 虽 然 不 具备 事务 处 理 和 JOIN 这 些 关系 型 数据 库 所 具有 的 
处 理 能 力 ,但 除 此 以 外 的 其 他 处 理 基本 上 都 能 实现 。 这 是 非常 容易 使 用 的 NoSQL 数据 库 。 

G) 不 需要 定义 表 结 构 。 

@ 可 以 利用 复杂 的 查询 条 件 。 

3) 面向 列 的 数据 库 

Cassandra、Hbase、HyperTable 属于 这 种 类 型 。 由 于 近年 来 数据 量 出 现 爆发 性 增长 ,这 
种 类 型 的 NoSQL 数据 库 尤 其 引 人 注 目 。 面 向 列 的 数据 库 是 以 列 为 单位 来 存储 数据 的 , 擅 
长 以 列 为 单位 读 入 数据 。 

面向 列 的 数据 库 具 有 高 扩展 性 ,即使 数据 增加 也 不 会 降低 相应 的 处 理 速度 (特别 是 写 入 
速度 ) ,所 以 它 主 要 应 用 于 需要 处 理 大 量 数据 的 情况 。 另 外 ,利用 面向 列 的 数据 库 的 优势 ,把 
它 作 为 批 处 理 程序 的 存储 器 来 对 大 量 数据 进行 更 新 也 是 非常 有 用 的 。 但 由 于 面向 列 的 数据 
库 跟 现行 数据 库存 储 的 思维 方式 有 很 大 不 同 , 应 用 起 来 十 分 困难 。 

4) 面向 行 的 数据 库 

普通 的 关系 型 数据 库 都 是 以 行为 单位 来 存储 数据 的 ,擅长 进行 以 行为 单位 的 读 人 处 理 ， 
比如 特定 条 件数 据 的 获取 。 因 此 ,关系 型 数据 库 也 被 称 为 面向 行 的 数据 库 。 


11.3.4 HBase 介绍 


HBase 是 一 个 面向 列 的 分 布 式 数据 库 。HBase 不 是 一 个 关系 型 数据 库 , 其 设计 目标 是 
用 来 解决 关系 型 数据 库 在 处 理 海量 数据 时 的 理论 和 实现 上 的 局 限 性 。 传 统 关 系 型 数据 库 在 
20 世纪 70 年 代为 交易 系统 设计 ,以 满足 数据 一 致 性 (ACID) 为 目标 ,并 没有 考虑 数据 规模 
扩大 时 的 扩展 性 ,以 及 单 点 系统 失效 时 的 可 靠 性 。 虽 然 经 过 多 年 的 技术 发 展 产生 了 一 些 对 
关系 型 数据 库 的 修补 (并 行 数据 库 ) ,然而 受 限 于 理论 和 实现 上 的 约束 ,扩展 性 从 来 没有 超过 
40 个 服务 器 节点 。 而 HBase 从 一 开始 就 是 为 Terabyte 到 Petabyte 级 别 的 海量 数据 存储 
和 高 速 读 写 而 设计 ,这 些 数据 要 求 能 够 被 分 布 在 数 千 台 普通 服务 器 上 ,并 且 能 够 被 大 量 并 发 
用 户 高 速 访问 。 

HBase 从 2008 年 第 一 次 商用 开始 ,已 经 被 越 来 越 多 的 在 线 服务 公司 所 采用 。 其 中 最 大 
的 是 Facebook 新 上 线 的 整合 了 E-mail、.SNS、Chat 和 短 消息 的 在 线 即 时 消息 系统 。 

1. 高 可 扩展 性 

HBase 是 真正 意义 上 的 线性 水 平 扩展 。 数 据 量 累积 到 一 定 程度 (可 配置 ) ,HBase 系统 
会 自动 对 数据 进行 水 平 切 分 ,并 分 配 不 同 的 服务 器 来 管理 这 些 数据 。 这 些 数 据 可 以 扩散 到 
上 千 个 普通 服务 器 上 。 这 样 一 方面 可 以 由 大 量 普 通 服务 器 组 成 大 规模 集群 ,来 存放 海量 数 
据 ( 从 几 个 TB 到 几 十 PB 的 数据 )。 另 一 方面 , 当 数 据 峰值 接近 系统 设计 容量 时 ,可 以 简单 
通过 增加 服务 器 的 方式 来 扩大 容量 。 这 个 动态 扩容 过 程 无 须 停机 ,HBase 系统 可 以 照常 运 
行 并 提供 读 写 服务 ,完全 实现 动态 无 颖 无 宕 机 扩容 。 
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HBase 的 设计 目的 之 一 是 支持 高 并 发 用 户 数 的 高 速 读 写 访问 。 这 是 通过 两 方面 来 实 
现 的 。 首 先 数据 行 被 水 平 切 分 并 分 布 到 多 台 服 务 器 上 ,在 大 量 用 户 访问 时 ,访问 请 求 也 被 分 
散 到 了 不 同 的 服务 器 上 ,虽然 每 个 服务 器 的 服务 能 力 有 限 ,但 是 数 千 台 服务 器 汇总 后 可 以 提 
供 极 高 性 能 的 访问 能 力 。 其 次 ,HBase 设计 了 高 效 的 缓存 机 制 , 有 效 提 高 了 访问 的 命中 率 ， 
提高 了 访问 性 能 。 

3. 高 可 用 性 

HBase 建立 在 HDFS 之 上 。HDFS 提供 了 数据 自动 复制 和 容错 的 功能 。HBase 的 日 
志和 数据 都 存放 在 HDFS 上 ,即使 在 读 写 过 程 中 当前 服务 器 出 现 故 障 (硬盘 、 内 存 、 网 络 等 
故障 ) ,日 志 也 不 会 丢失 ,数据 都 可 以 从 日 志 中 自动 恢复 。HBase 系统 会 自动 分 配 其 他 服务 
器 接管 并 恢复 这 些 数据 。 因 此 一 旦 成 功 写 人 数据 ,这 些 数 据 就 保证 被 持久 化 并 被 元 余 复 制 ， 
整个 系统 的 高 可 用 性 得 到 保证 。 

4. 数据 模型 及 其 特点 

HBase 是 一 个 面向 列 的 、 稀 玻 的 、 分 布 式 的 、 持 久 化 存储 的 多 维 排序 映射 表 (Map)。 表 
的 索引 是 行 关键 字 、 列 簇 名 (Column Family)、 列 关键 字 以 及 时 间 戳 ; 表 中 的 每 个 值 都 是 一 
个 未 经 解析 的 字 节 数 组 。 

面向 列 : 指 的 是 同一 个 列 簇 里 所 有 数据 都 存放 在 一 个 文件 中 ,从 而 在 读 写 时 有 效 降 低 
磁盘 1/O 的 开销 ,并 且 由 于 类 似 数据 存放 在 一 起 ,提高 了 压缩 比 。 经 过 压缩 后 的 数据 容量 
通常 达到 原来 的 1/3 到 1/5, 极 大 节省 了 存储 空间 。 

多 维 表 : 这 是 对 传统 二 维 关系 表 的 极 大 扩充 。 传 统 二 维 表 有 两 维 : 行 和 列 。 列 在 设计 
表 结 构 时 必须 预先 固定 ,而 行 可 以 动态 增加 ,也 就 是 说 有 一 个 维度 可 动态 改变 。HBase 的 
多 维 表 有 四 维 , 列 簇 需要 在 设计 表 结 构 时 事先 确定 ,而 行 、 列 \ 时 间 维 都 可 以 动态 增加 。 也 就 
是 说 有 三 个 维度 可 动态 改变 。 这 种 结构 非常 适合 用 来 表述 有 赃 套 关系 的 数据 。 另 外 ,动态 
增删 列 的 能 力也 给 很 多 业务 带 来 便利 ,特别 是 这 些 业 务 在 不 停 地 演化 ,需要 的 列 字段 也 在 不 
停 地 增加 ,多 维 表 结 构 可 以 随时 进行 改变 以 适应 业务 发 展 需求 。 

稀疏 表 : 由 于 多 维 表 的 列 可 以 动态 增加 ,必然 导致 不 同行 相同 列 的 数据 大 部 分 为 空 ,也 
就 是 说 这 个 表 是 稀 朴 的 。 不 像 传统 关系 型 数据 库 , HBase 不 存放 空 值 , 只 存放 有 内 容 的 表 
格 单元 (cell) ,因此 可 以 支持 超大 稀 玻 表 ,而 不 会 带 来 任何 开销 。 这 对 传统 的 表 结 构 设 计 也 
带 来 了 观念 上 的 大 改变 。 

HBase 是 Google Bigtable 的 开源 实现 ,类 似 Google Bigtable 利用 GFS 作为 其 文件 存 
储 系统 ,HBase 利用 Hadoop HDFS 作为 其 文件 存储 系统 ;Google 运行 MapReduce 来 处 理 
Bigtable 中 的 海量 数据 , HBase 同样 利用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 数 
据 ;Google Bigtable 利用 Chubby 作为 协同 服务 , HBase 利用 Zookeeper 作为 对 应 。 如 
图 11-3 所 示 。 

图 11-3 描述 了 Hadoop EcoSystem 中 的 各 层 系 统 , 其 中 HBase 位 于 结构 化 存储 层 ， 
Hadoop HDFS 为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 ,Hadoop MapReduce 为 HBase 
提供 了 高 性 能 的 计算 能 力 ,Zookeeper 为 HBase 提供 了 稳定 服务 和 failover 机 制 。 

此 外 ,Pig 和 Hive 还 为 HBase 提供 了 高 层 语 言 支持 ,使 得 在 HBase 上 进行 数据 统计 处 
理 变 得 非常 简单 。Sqoop 则 为 了 Base 提供 了 方便 的 RDBMS 数据 导入 功能 ,使 得 传统 数据 
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图 11-3 各 层 系统 结构 


库 数 据 向 HBase 中 迁移 变 得 非常 方便 。 

5. HBase 访问 接口 

(1) Native Java API: 这 是 最 常规 和 高 效 的 访问 方式 ,适合 Hadoop MapReduce Job 并 
行 批 处 理 HBase 表 数 据 。 

(2) HBase Shell: HBase 的 命令 行 工具 ,有 最 简单 的 接口 ,适合 HBase 管理 使 用 。 

(3) Thrift Gateway: 利用 Thrift 序列 化 技术 ,支持 C++ .PHP、Python 等 多 种 语言 , 适 
合 其 他 异 构 系 统 在 线 访问 HBase 表 数 据 。 

(4) REST Gateway: 支持 REST 风格 的 HTTP API 访 问 HBase, 解除 了 语言 限制 。 

(5) Pig: 可 以 使 用 Pig Latin 流 式 编程 语言 来 操作 HBase 中 的 数据 。 与 Hive 类 似 ,本 
质 最 终 也 是 编译 成 MapReduce Job 来 处 理 HBase 表 数 据 , 适 合 做 数据 统计 。 

(6) Hive: 当前 Hive 的 Release 版 本 尚 没有 加 入 对 HBase 的 支持 ,但 在 下 一 个 版 本 
Hive 0.7.0 中 将 会 支持 HBase, 可 以 使 用 SQL 语言 等 来 访问 HBase。 

6. Table 和 Region 

当 Table 随 着 记录 数 不 断 增加 而 变 大 后 ,会 逐渐 分 裂 成 多 份 splits, 成 为 regions。 一 个 
region 由 startkey 或 endkey 表示 ,不 同 的 region 会 被 Master 分 配给 相应 的 RegionServer 
进行 管理 ,如 图 11-4 所 示 。 


Assignment 


Table with splits to regionservers 
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图 11-4 分 配 管理 图 


HBase 中 有 两 张 特殊 的 Table, 即 *. META.” 和 “一 ROOT 一 ”。 
0 . META. : 记录 了 用 户 表 的 Region 信息 ,“. META. ”可 以 有 多 个 regoin。 
6 一 ROOT 一 : 记录 了 “. META. ” 表 的 Region 信息 ,“ 一 ROOT 一 ”只 有 一 个 region。 
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0 Zookeeper 中 记录 了 “一 ROOT 一 ” 表 的 location。 

客户 端 访问 用 户 数据 之 前 需要 首先 访问 zookeeper, 然 后 访问 “一 ROOT 一 ? 表 , 接 着 访 
问 “. META. ” 表 , 最 后 才能 找到 用 户 数据 的 位 置 去 访问 ,中 间 需 要 多 次 网 络 操作 ,不 过 客户 
端 会 做 cache 缓存 。 

7. MapReduce on HBase 

在 HBase 系统 上 运行 批 处 理 运算 ,最 方便 和 实用 的 模型 依然 是 MapReduce。 

HBase Table 和 Region 的 关系 ,比较 类 似 于 HDFS File 和 Block 的 关系 ,HBase 提供 
了 配套 的 TableInputFormat 和 TableOutputFormat API, 可 以 方便 地 将 HBase Table 作为 
Hadoop MapReduce 的 Source 和 Sink ,对 于 MapReduce Job 应 用 开发 人 员 来 说 ,基本 不 需 
要 关注 HBase 系统 自身 的 细节 。 

8. Client 

HBase Client 使 用 HBase 的 RPC 机 制 与 HMaster 和 HRegionServer 进行 通信 ,对 于 
管理 类 操作 ,Client 与 HMaster 进行 RPC; 对 于 数据 读 写 类 操作 ,Client 与 HRegionServer 
进行 RPC。 

9. Zookeeper 

Zookeeper Quorum 中 除了 存储 “一 ROOT 一 ” 表 的 地 址 和 “HMaster” 的 地 址 ， 
HRegionServer 也 会 把 自己 以 Ephemeral 方式 注册 到 Zookeeper 中 ,使 得 HMaster 可 以 随 
时 感知 到 各 个 HRegionServer 的 健康 状态 。 此 外 ,Zookeeper 也 避免 了 HMaster 的 单 点 问 
题 , 见 下 文 描述 。 

10. HMaster 

HMaster 没有 单 点 问题 ,HBase 中 可 以 启动 多 个 HMaster, 通 过 Zookeeper 的 Master 
Election 机 制 保证 总 有 一 个 Master 运行 ,HMaster 在 功能 上 主要 负责 Table 和 Region 的 
以 下 管理 工作 。 

(1) 管理 用 户 对 Table 的 增 、 删 . 改 、 查 操作 。 

(2) 管理 HRegionServer 的 负载 均衡 .调整 Region 分 布 。 

(3) 在 Region Split 后 ,负责 新 Region 的 分 配 。 

(4) 在 HRegionServer 停机 后 ,负责 失效 HRegionServer 上 的 Regions 迁移 。 

11. HRegionServer 

HRegionServer 主要 负责 响应 用 户 1/O 请 求 ,向 HDFS 文件 系统 中 读 写 数据 ,是 
HBase 中 最 核心 的 模块 ,如 图 11-5 所 示 。 

HRegionServer 内 部 管理 了 一 系列 HRegion 对 象 ,每 个 HRegion 对 应 着 Table 中 的 一 
个 Region,HRegion 由 多 个 HStore 组 成 。 每 个 HStore 对 应 了 Table 中 的 一 个 Column 
Family 的 存储 ,可 以 看 出 每 个 Column Family 其 实 就 是 一 个 集中 的 存储 单元 ,因此 最 好 将 
具备 共同 1/O 特性 的 column 放 在 一 个 Column Family 中 ,这 样 最 高 效 。 

HStore 存储 是 HBase 存储 的 核心 了 ,其 中 由 两 部 分 组 成 ,一 部 分 是 MemStore, 一 部 分 
是 StoreFiles。 MemStore 是 Sorted Memory Buffer, 用 户 写 入 的 数据 首先 会 放 入 
MemStore, 当 MemStore 满 了 以 后 会 刷新 成 一 个 StoreFile (底层 实现 是 HFile)。 当 
StoreFile 文件 数量 增长 到 一 定 阅 值 .会 触发 Compact 合并 操作 ,将 多 个 StoreFiles 合并 成 
一 个 StoreFile, 合 并 过 程 中 会 进行 版 本 合并 和 数据 删除 ,因此 可 以 看 出 HBase 其 实 只 有 增 
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11-5 ”HRegionServe 结构 示意 图 





加 数据 ,所 有 的 更 新 和 删除 操作 都 是 在 后 续 的 compact 过 程 中 进行 的 ,这 使 得 用 户 的 写 操 
作 只 要 进入 内 存 中 就 可 以 立即 返回 ,保证 了 HBase 1/O 的 高 性 能 。 当 StoreFiles 合并 后 ， 
会 逐步 形成 越 来 越 大 的 StoreFile, 当 单个 StoreFile 大 小 超过 一 定 阔 值 后 ,会 触发 Split 操 
作 , 同 时 把 当前 Region 分 成 两 个 , 父 Region 会 下 线 , 新 分 出 的 两 个 孩子 Region 会 被 
HMaster 分 配 到 相应 的 HRegionServer 上 ,使 得 原先 一 个 Region 的 压力 得 以 分 流 到 两 个 
Region 上 。 

在 理解 了 上 述 HStore 的 基本 原理 后 ,还 必须 了 解 一 下 HLog 的 功能 ,因为 上 述 的 
HStore 在 系统 正常 工作 的 前 提 下 是 没有 问题 的 ,但 是 在 分 布 式 系 统 环境 中 ,无 法 避免 系统 
出 错 或 者 宕 机 ,因此 一 旦 HRegionServer 意外 退出 ,MemStore 中 的 内 存 数据 将 会 丢失 ,这 
就 需要 引入 HLog 了 。 每 个 HRegionServer 中 都 有 一 个 HLog 对 象 , HLog 是 一 个 实现 
Write Ahead Log 的 类 ,在 每 次 用 户 操作 写 入 MemStore 的 同时 ,也 会 写 一 份 数据 到 HLog 
文件 中 (HLog 文件 格式 见 后 续 ) ,HLog 文件 定期 会 滚动 出 新 的 ,并 删除 旧 的 文件 (已 持久 
化 到 StoreFile 中 的 数据 )。 当 HRegionServer 意外 终止 后 ,HMaster 会 通过 Zookeeper 感 
知 到 ,HMaster 首先 会 处 理 遗 留 的 HLog 文件 ,将 其 中 不 同 Region 的 Log 数据 进行 拆 分 ， 
分 别 放 到 相应 region 的 目录 下 ,然后 再 将 失效 的 region 重新 分 配 , 领 取 到 这 些 region 的 
HRegionServer 在 Load Region 的 过 程 中 会 发 现 有 历史 HLog 需要 处 理 , 因 此 会 转发 HLog 
中 的 数据 到 MemStore 中 ,然后 刷新 到 StoreFiles 中 ,完成 数据 恢复 。 

12. HBase 存储 格式 

HBase 中 的 所 有 数据 文件 都 存储 在 Hadoop HDFS 文件 系统 上 ,主要 包括 上 述 提 出 的 
两 种 文件 类 型 。 

(1) HFile: HBase 中 Key Value 数据 的 存储 格式 , HFile 是 Hadoop 的 二 进 制 格式 文 
件 , 实 际 上 StoreFile 就 是 对 HFile 做 了 轻 量 级 包装 , 即 StoreFile 底层 就 是 HFile。 

(2) HLog File: HBase 中 WAL(Write Ahead Log) 的 存储 格式 .物理 上 是 Hadoop 的 
Sequence File。 

13. HFile 

图 11-6 是 HFile 的 存储 格式 。 
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11-6 HFile 的 存储 格式 


首先 HFile 文件 是 不 定 长 的 ,长 度 固定 的 只 有 其 中 的 两 块 : Trailer 和 FileInfo。 正 如 
图 中 所 示 ,Trailer 中 有 指针 指向 其 他 数据 块 的 起 始点 。File Info 中 记录 了 文件 的 一 些 Meta 
信息 ,例如 : AVG_KEY_LEN、AVG_VALUE_LEN、LAST_KEY、COMPARATOR、MAX 
_SEQ_ID_KEY 等 。Data Index 和 Meta Index 块 记录 了 每 个 Data 块 和 Meta 块 的 起 始点 。 

Data Block 是 HBase 1/O 的 基本 单元 ,为 了 提高 效率 ,HRegionServer 中 有 基于 LRU 
的 Block Cache 机 制 。 每 个 Data 块 的 大 小 可 以 在 创建 一 个 Table 的 时 候 通 过 参数 指定 ,大 
号 的 Block 有 利于 顺序 扫描 ,小 号 Block 利于 随机 查询 。 每 个 Data 块 除了 开头 的 Magic 以 
外 就 是 一 个 个 KeyValue 对 拼接 而 成 ，Magic 内 容 就 是 一 些 随机 数字 ,目的 是 防止 数据 损 
坏 。 后面 会 详细 介绍 每 个 KeyValue 对 的 内 部 构造 。 

HFile 里 面 的 每 个 KeyValue 对 就 是 一 个 简单 的 byte 数组 。 但 是 这 个 byte 数组 里 面包 
含 了 很 多 项 ,并 且 有 固定 的 结构 。 我 们 来 看 看 里 面 的 具体 结构 ,如 图 11-7 所 示 。 
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Length | Length 于 ifie 
el engi Length Qualifier 














4B 4B 2B 1B 8B 1B 
图 11-7 HFile 结构 


开始 是 两 个 固定 长 度 的 数值 .分别 表示 Key 的 长 度 和 Value 的 长 度 。 紧 接着 是 Key， 
开始 是 固定 长 度 的 数值 ,表示 RowKey 的 长 度 , 紧 接着 是 RowKey。 然 后 是 固定 长 度 的 数 
值 ,表示 Family 的 长 度 。 接 下 来 是 Family ,接着 是 Qualifier。 最 后 是 两 个 固定 长 度 的 数值 ， 
表示 Time Stamp 和 Key Type(Put/Delete)。Value 部 分 没有 这 么 复杂 的 结构 ,就 是 纯粹 的 
二 进 制 数 据 。 

14. HLogFile 

图 11-8 中 示意 了 HLog 文件 的 结构 , 其实 HLog 文件 就 是 一 个 普通 的 Hadoop 
Sequence File,Sequence File 的 Key 是 HLogKey 对 象 .HLogKey 中 记录 了 写 入 数据 的 归 
属 信息 ,除了 table 和 region 名 字 外 .同时 还 包括 sequence number 和 timestamp ,timestamp 
是 “ 写 和 人 时间 ”, sequence number 的 起 始 值 为 0, 或 者 是 最 近 一 次 存 入 文件 系统 中 的 
sequence number。 

HLogSequece File 的 值 (Value) 是 HBase 的 KeyValue 对 象 , 即 对 应 HFile 中 的 
KeyValue。 
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11-8 ”HFile 文 件 的 结构 














11.4 关键 技术 分 析 


前 面 从 系统 的 角度 介绍 了 一 些 典 型 的 分 布 式 存储 系统 ,其 中 都 需要 解决 分 布 式 环境 中 的 
一 致 性 与 复制 负载 均衡 ,容错 等 问题 。 但 是 ,还 有 一 些 关键 技术 可 以 改善 存储 系统 的 性 能 。 


11.4.1 元 数据 管理 


元 数据 是 为 了 简化 检索 .使 用 和 管理 信息 资源 的 结构 化 数据 。 在 大 规模 对 象 存储 系统 
以 及 分 布 式 文件 系统 中 ,通常 会 将 元 数据 管理 和 文件 读 取 分 离 , 比 如 GFS 中 的 Master 节 
点 ,虽然 相对 于 文件 来 说 ,元 数据 很 小 ,但 是 元 数据 操作 占 整个 文件 系统 操作 的 50%, 所 以 
元 数据 服务 器 集群 的 行为 直接 影响 整个 系统 的 性 能 和 可 扩展 性 。MDS(Meta Data Server) 
集群 就 是 要 采取 某 种 分 区 策略 ,将 元 数据 分 布 到 多 个 节点 上 ,实现 元 数据 的 高 效 访问 和 集群 
的 负载 均衡 。 

静态 子 树 分 割 (sub-tree partitioning) 需 要 系统 管理 员 来 确定 文件 系统 如 何 分 布 ,从 而 
给 MDS 分 配 相应 的 目录 层次 子 树 , 这 种 方法 允许 存储 系统 机 向 扩展 ,但 不 能 纵向 扩展 , 基 
于 传统 网 络 文件 系统 的 系统 采用 这 种 方法 。 基 于 哈 希 的 方法 是 根据 文件 路 径 名 或 者 其 他 叭 
一 标识 符 来 映射 元 数据 所 在 位 置 , 客 户 端 可 以 直接 定位 和 联系 MDS, 如 果 所 采用 的 哈 希 函 
数 设计 得 高 效 均匀 ,用 户 请 求 就 会 在 集群 中 均衡 分 布 ,但 是 哈 希 策略 消除 了 文件 的 层次 结构 
概念 ,所 以 丧失 了 局 部 性 。 动 态 子 树 分 割 将 文件 系统 目录 层次 结构 中 的 不 同 子 树 分 布 到 不 
同 的 元 数据 服务 器 中 ,分 割 的 粒度 更 小 ,管理 灵活 ,能 够 根据 元 数据 服务 器 的 负载 情况 实现 
动态 的 负载 均衡 ,能 够 适应 动态 改变 的 文件 系统 和 工作 负载 ,缺点 是 层次 遍历 过 程 开销 很 
大 。 语 义 感知 的 元 数据 管理 方法 通过 把 相关 文件 的 元 数据 聚集 到 一 个 组 中 ,从 而 有 利于 构 
建 高 效 的 缓存 ,缩小 文件 查询 的 范围 ,提高 系统 的 可 扩展 性 。 

面 对 大 数据 环境 ,一 个 主 控 节 点 用 来 管理 系统 中 的 所 有 元 数据 在 高 并 发 访问 的 情况 下 
势必 会 成 为 系统 的 瓶颈 ,通过 客户 端的 预 取 和 缓存 技术 只 是 在 一 定 程 度 上 改善 了 这 种 情况 ， 
分 布 式 存储 系统 中 元 数据 管理 仍然 是 一 个 研究 热点 。 
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11.4.2 数据 去 重 


在 各 个 领域 中 ,许多 用 户 数据 中 含有 大 量 相同 或 相似 的 数据 ,比如 用 户 可 能 上 传 大 量 相 
同 的 图 片 ,在 云 存 储 领 域 中 多 个 用 户 可 能 共享 同一 个 物理 存储 ,重复 或 者 相似 数据 出 现 的 概 
率 很 高 ,所 以 可 以 利用 重复 数据 删除 技术 来 减少 存储 系统 的 开销 ,提高 缓存 利用 率 。 与 传统 
的 压缩 技术 不 同 , 去 重 的 目的 是 消除 大 数据 集中 文件 内 部 和 文件 之 间 的 元 余 。 重复 数据 删 
除 技术 广泛 应 用 在 备份 系统 中 ,分 为 源 端 .目的 端 和 网 内 重 删 , 以 及 归档 、RAM、SSD 等 场景 
中 ,不 同 的 存储 环境 中 去 重 系统 需要 根据 特定 的 延迟 和 吞吐 量 等 需求 具体 设计 。 数 据 去 重 
的 粒度 又 分 为 文件 级 和 块 级 ,根据 去 重 范 围 的 不 同 , 分 为 局 部 和 全 局 去 重 。 在 文件 写 人 的 
WO 路 径 中 进行 对 文件 块 的 指纹 比 对 ,如 果 匹 配 成 功 , 则 直接 构建 索引 指向 已 有 的 数据 块 。 
去 重 的 方法 很 多 ,关键 点 在 于 如 何 高 效 查找 重复 的 段 ,如 何 构建 高 效 索引 技术 。 

在 大 数据 存储 环境 下 ,将 重复 数据 删除 技术 部 署 在 分 布 式 存储 系统 中 ,从 而 实现 元 余数 
据 的 在 线 去 重 , 提 高 存储 性 能 和 存储 利用 率 。 在 重 删 集群 中 ,关键 技术 是 根据 具体 的 负载 进 
行 数据 分 析 和 处 理 , 设 计 智 能 的 数据 路 由 机 制 ,将 相似 的 文件 尽 可 能 路 由 到 同一 个 节点 上 进 
行 去 重 , 保 证 节点 间 负 载 均衡 ,提高 集群 的 重 删 收益 ,同时 确保 存储 系统 整体 的 性 能 和 带宽 。 


11.4.3 数据 分 布 和 负载 均衡 


与 单机 存储 系统 不 同 ,在 分 布 式 存储 系统 中 数据 分 布 在 多 个 节点 上 ,并 且 为 了 保证 高 可 
用 性 ,会 采用 多 副本 的 策略 将 数据 存储 多 份 , 所 以 就 需要 一 定 的 策略 ,将 数据 分 布 在 系统 的 
多 个 节点 上 ,同时 保证 多 个 节点 的 负载 均衡 。 常 见 的 分 布 算法 是 哈 希 分 布 和 顺序 分 布 。 传 
统 的 哈 希 分 布 是 根据 数据 的 某 个 特征 值 和 选 定 的 哈 希 函数 计算 哈 希 值 ,建立 起 和 存储 节点 
的 映射 关系 ,所 以 该 算法 的 关键 在 于 找到 一 个 散 列 特性 很 好 的 哈 希 函数 ,而且 在 节点 个 数 发 
生变 化 时 ,Rehash 会 导致 大 量 数据 的 迁移 。 关 于 一 致 性 哈 希 有 了 很 大 的 改进 ,在 节点 加 入 
和 删除 时 只 会 影响 到 哈 希 环 中 的 相 邻 节点 ,比如 上 述 讲 到 的 Amazon Dynamo 系统 使 用 的 
就 是 改进 的 一 致 性 哈 希 算法 。 顺 序 分 布 用 在 分 布 式 表格 存储 系统 中 ,将 表示 大 量 结构 化 数 
据 的 一 个 大 表 顺 序 划分 为 多 个 子 表 ,而 后 分 配 到 多 个 存储 节点 上 , 随 着 数据 的 插入 和 删除 ， 
每 个 节点 上 的 子 表 会 变 得 大 小 不 一 、 不 均匀 ,所 以 要 考虑 子 表 的 合并 和 拆 分 问题 ,以 及 给 系 
统 带 来 的 性 能 影响 。 相 比 而 言 , 哈 希 分 布 针对 的 是 随机 读 写 操作 ,不 支持 顺序 和 范围 扫描 ， 
顺序 分 布 更 能 体现 数据 的 局 部 性 原理 ,利用 预 取 来 改善 性 能 ,当然 ,这 和 面 对 的 应 用 场景 的 
数据 负载 有 关 。 

数据 分 布 算法 还 需要 考虑 到 各 个 节点 之 间 的 负载 均衡 ,影响 负载 的 因素 有 很 多 : 新 的 
节点 加 入 、 某 个 节点 宕 机 `CPU、 内 存 、 网 络 带宽 等 , 当 检测 到 不 均衡 发 生 时 就 要 数据 迁移 ， 
以 及 主 副本 之 间 的 切换 ,迁移 过 程 对 用 户 透 明 。 负 载 均 衡 算法 的 研究 相对 比较 成 熟 , 主 要 有 
静态 和 动态 负载 均衡 算法 。 

在 分 布 式 存储 系统 中 负载 均衡 的 实施 主要 有 集中 控制 和 分 布 式 方式 。 集 中 的 控制 方式 
一 般 由 主 节点 来 实现 ,简单 ,通信 开销 小 ,但 是 存在 单 点 故障 问题 ;而 分 布 式 的 负载 均衡 算法 
则 不 存在 单 点 故障 问题 ,易于 扩展 ,但 是 当 系统 规模 很 大 的 时 候 会 带 来 巨大 的 通信 开销 , 影 
响 系统 的 整体 性 能 。 在 大 数据 的 应 用 如 Hadoop 中 有 很 多 研究 致力 于 改进 其 中 的 负载 均衡 
算法 。 
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11.5 不 同 数 据 库 公 司 的 大 数据 主张 


目前 全 球 大 数据 企业 主要 分 为 两 大 阵营 。 一 部 分 属于 单纯 以 大 数据 技术 为 核心 的 创新 
型 公司 ,希望 为 市 场 带 来 创新 方案 并 推动 技术 发 展 。 另 有 一 些 则 是 以 数据 库 / 数 据 仓 储 业 务 
为 主 的 知名 公司 ,利用 自身 资源 与 技术 优势 地 位 冲击 大 数据 领域 。 

下 面 介绍 几 个 典型 公司 的 大 数据 主张 。 

1. IBM 

IBM 在 软件 领域 的 地 位 无 须 多 说 ,从 大 数据 产品 方面 来 讲 ,IBM 提供 了 丰富 的 产品 ,从 
硬件 到 基于 云 计算 的 基础 架构 ,到 数据 库 、 数 据 仓 库 、 大 数据 平台 和 面向 各 个 领域 的 挖掘 分 
析 产 品 。 其 中 ,DB2、Informix 与 InfoSphere 数据 库 平台 、Cognos 与 SPSS 分 析 应 用 可 谓 最 
为 知名 。IBM 同时 也 为 Hadoop 开源 数据 分 析 平 台 提 供 支 持 。 

IBM 的 大 数据 平台 是 Hadoop 发 行 版 BigInsights, 如 图 11-9 所 示 。 


[人 IBM InfoSphere Biginsights Enterprise Edition 





图 11-9 ”BiglInsights 系统 架构 图 


关于 技术 团队 ,IBM 也 是 投入 了 大 量 研发 力量 ,一 方面 ,自身 投入 大 量 研发 团队 对 开源 
系统 进行 研发 ; 另 一 方面 ,投入 大 量 资金 收购 多 家 公司 。 
IBM 以 其 丰富 的 产品 和 技术 ,广泛 的 客户 基础 ,连年 坐 拥 大 数据 市 场 第 一 宝座 ,在 大 数 
据 与 分 析 领 域 ,IBM 不 断 开拓 新 的 市 场 ,正在 帮助 包括 能 源 、 医 疗 、 金 融 服 务 、 零 售 和 快 消 等 
不 同 领域 的 企业 实现 转型 。 
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2. EMC 

易 安信 为 一 家 美国 信息 存储 资讯 科技 公司 ,主要 业务 为 信息 存储 及 管理 产品 、 服 务 和 人 解 
决 方案 。EMC 一 方面 帮助 客户 保存 并 分 析 大 数据 ,另外 也 充当 着 大 数据 分 析 智 塞 “ 营 销 科 
学 实验 室 ” 的 所 在 地 一 一 这 家 实验 室 专门 分 析 营 销 类 数据 。EMC 推出 的 最 新 爆炸 性 消息 是 
与 VMware 及 通用 电气 一 道 支持 Pivotal 公司 。Pivotal 将 对 Hadoop 与 EMC 的 
Greenplum 数据 库 与 HAWQ 查询 工具 进行 整合 。EMC 的 主要 产品 为 企业 级 服务 器 存储 
硬件 和 软件 ,以 及 与 存储 相关 的 网 络 产品 。 

EMC 提供 了 系列 产品 支持 大 数据 业务 ,包括 Greenplum (MPP 集群 )、PivotalHD、 
HAWQ(SQL on Hadoop) .Gemfire( 内 存 数据 库 ) ,其 中 PivotalHD 是 EMC 的 Hadoop 发 
行 版 。 根 据 最 新 消息 ,EMC 的 Greenplum、HAWQ Gemfire 已 经 开源 ,而 EMC 公司 已 经 
被 Dell 并 购 。 如 图 11-10 所 示 。 
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11-10 ”Pivotal 架构 图 


3. Cloudera 

其 创建 于 2008 年 ,利用 Hadoop 这 一 开源 技术 帮助 公司 构建 大 数据 平台 ,为 企业 等 组 
织 型 客户 提供 大 数据 服务 的 基础 ,也 做 解决 方案 咨询 和 认证 培训 。 在 Hadoop 生态 领域 ， 
Cloudera 是 规模 最 大 、 知 名 度 最 高 的 企业 ,也 是 当前 大 数据 领域 最 强 有 力 的 解决 方案 服务 
商 之 一 。 
公司 提供 基于 Hadoop 的 单一 产品 ,CDH 是 Cloudera 的 Hadoop 发 行 版 。 

CDH 企业 版 包括 分 布 式 存储 、 数 据 库 .SQL 引擎 、 机 器 学 习 引 擎 ,全文 检索 ,实时 流 处 
理 , 分 布 式 数据 总 线 服务 .ETL 工作 流 引 擎 .内存 计算 引擎 .元 数据 生命 周期 管理 .统一 多 层 
次 安全 模块 平台 管理 \ 云 平台 自动 部 署 等 企业 级 Hadoop 软件 模块 。 如 图 11-11 所 示 。 

4. 人 大 金 仓 

其 创建 于 1999 年 ,是 中 国 自主 可 控 数据 库 ,数据 管理 全 线 产品 及 解决 方案 的 领军 企业 。 
通过 自主 研发 、 产 学 研 结合 ,兼并 收购 等 方式 ,快速 形成 了 集 数据 存储 ,管理 、 集 成 .分 析 、 展 
现 于 一 体 的 全 面 产品 线 及 符合 新 一 代 架 构 的 数据 中 心 解决 方案 。 产品 包括 数据 采集 
KingbaseDI、 数 据 存 储 、.DBCloud、 数 据 分 析 以 及 可 视 化 KingbaseSmartBI 等 。 如 图 11-12 
所 示 。 
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图 11-11 Hadoop 系统 架构 图 
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图 11-12 人 大 金 仓 大 数据 架构 图 


11.6 大 数据 时 代 的 数据 保护 


按照 通用 的 大 数据 架构 的 理解 ,我 们 自 底 向 上 ,分别 讨 论 一 下 文件 系统 、 数 据 库 , 分 布 式 
服务 框架 .私有 云 等 各 个 层面 的 数据 保护 。 


11.6.1 HDFS 


Hadoop 分 布 式 文件 系统 (HDFS) 被 设计 成 适合 运行 在 通用 硬件 上 的 分 布 式 文件 系统 。 
HDFS 是 一 个 高 度 容 错 性 的 系统 ,适合 部 署 在 廉价 的 机 器 上 。HDFS 能 提供 高 吞吐 量 的 数 
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据 访问 ,非常 适合 大 规模 数据 集 上 的 应 用 。HDFS 放宽 了 一 部 分 POSIX 约束 ,来 实现 流 式 
读 取 文 件 系 统 数 据 的 目的 。 

HDFS 有 着 高 容错 性 的 特点 ,并 且 设 计 用 来 部 署 在 低廉 的 硬件 上 。 而 且 它 提供 高 吞吐 
量 (high throughput) 来 访问 应 用 程序 的 数据 ,适合 那些 有 着 超大 数据 集 (large data set) 的 
应 用 程序 。 

1. 数据 复制 

HDFS 设计 成 能 可 靠 地 在 集群 中 大 量 机 器 之 间 存 储 大 量 的 文件 , 它 以 块 序列 的 形式 存 
储 文件 。 文 件 中 除了 最 后 一 个 块 ,其 他 块 都 有 相同 的 大 小 。 文 件 中 的 块 为 了 故障 容错 而 被 
复制 。 块 的 大 小 和 复制 数 是 以 文件 为 单位 进行 配置 的 ,应 用 可 以 在 文件 创建 时 或 者 之 后 修 
改 复制 因子 。HDFS 中 的 文件 是 一 次 写 的 ,并 且 任 何 时 候 都 只 有 一 个 写 操作 。 

名 字 节 点 负责 处 理 所 有 的 块 复制 相关 的 决策 。 它 周期 性 地 接受 集群 中 数据 节点 的 心跳 
和 块 报告 。 一 个 心跳 的 到 达 表 示 这 个 数据 节点 是 正常 的 。 一 个 块 报告 包括 该 数据 节点 上 所 
有 块 的 列表 。 

默认 的 HDFS block 放置 策略 在 最 小 化 写 开 销 和 最 大 化 数据 可 靠 性 .可 用 性 以 及 总 体 
读 取 带 宽 之 间 进 行 了 一 些 折 中 。 一 般 情况 下 复制 因子 为 3,HDFS 的 副本 放置 策略 是 将 第 
一 个 副本 放 在 本 地 节点 ,将 第 二 个 副本 放 到 本 地 机 架 上 的 另外 一 个 节点 ,而 将 第 三 个 副本 放 
到 不 同 机 架 上 的 节点 。 这 种 方式 减少 了 机 架 间 的 写 流 量 , 从 而 提高 了 写 的 性 能 。 机 架 故 障 
的 概率 远 小 于 节点 故障 。 这 种 方式 并 不 影响 数据 可 靠 性 和 可 用 性 的 限制 ,并 且 它 确实 减少 
了 读 操 作 的 网 络 聚合 带宽 ,因为 文件 块 仅 存在 两 个 不 同 的 机 架 , 而 不 是 三 个 。 文 件 的 副本 不 
是 均匀 地 分 布 在 机 架 当 中 ,1/3 在 同一 个 节点 上 ,1/3 副本 在 同一 个 机 架 上 ,另外 1/3 均匀 地 
分 布 在 其 他 机 架 上 。 这 种 方式 提高 了 写 的 性 能 ,并 且 不 影响 数据 的 可 靠 性 和 读 性 能 。 

为 了 尽量 减 小 全 局 的 带宽 消耗 读 延迟 ,HDFS 尝试 返回 给 一 个 读 操作 离 它 最 近 的 副本 。 
假如 在 读 节点 的 同一 个 机 架 上 就 有 这 个 副本 ,就 直接 读 这 个 ,如 果 HDFS 集群 是 跨越 多 个 
数据 中 心 ,那么 本 地 数据 中 心 的 副本 优先 于 远程 的 副本 。 

一 个 数据 节点 周期 性 发 送 一 个 心跳 包 到 名 字 节 点 。 网 络 断 开会 造成 一 组 数据 节点 子 集 
和 名 字 节 点 失去 联系 。 名 字 节 点 根据 缺失 的 心跳 信息 判断 故障 情况 。 名 字 节 点 将 这 些 数据 
节点 标记 为 死亡 状态 ,不 再 将 新 的 W/O 请 求 转 发 到 这 些 数据 节点 上 ,这 些 数据 节点 上 的 数 
据 将 对 HDFS 不 再 可 用 ,可 能 会 导致 一 些 块 的 复制 因子 降低 到 指定 的 值 。 

名 字 节 点 检查 所 有 的 需要 复制 的 块 ,并 开始 复制 它们 到 其 他 的 数据 节点 上 。 重 新 复制 
在 有 些 情况 下 是 不 可 或 缺 的 ,例如 : 数据 节点 失效 ,副本 损坏 ,数据 节点 磁盘 损坏 或 者 文件 
的 复制 因子 增 大 。 

HDFS NameNode 的 高 可 用 整体 架构 如 图 11-13 所 示 。 

可 以 看 出 NameNode 的 高 可 用 架构 主要 分 为 下 面 几 个 部 分 。 

(1) Active NameNode 和 Standby NameNode 

两 台 NameNode 形成 互 备 ,一 台 处 于 Active 状态 .为 主 NameNode; 另 外 一 台 处 于 
Standby 状态 ,为 备用 NameNode。 只 有 主 NameNode 才能 对 外 提供 读 写 服务 。 

(2) 主 备 切换 控制 器 ZKFailoverController 

ZKFailoverController 作为 独立 的 进程 运行 ,对 NameNode 的 主 备 切 换 进 行 总 体 控制 。 
ZKFailoverController 能 及 时 检测 到 NameNode 的 健康 状况 ,在 主 NameNode 故障 时 借助 
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图 11-13 HDFS NameNode 的 高 可 用 整体 架构 


Zookeeper 实现 自动 的 主 备 选举 和 切换 ,当然 NameNode 目前 也 支持 不 依赖 于 Zookeeper 
的 手动 主 备 切 换 。 

(3) Zookeeper 集群 

为 主 备 切换 控制 器 提供 主 备 选 举 支持 。 

(4) 共享 存储 系统 

共享 存储 系统 是 实现 NameNode 的 高 可 用 最 为 关键 的 部 分 ,共享 存储 系统 保存 了 
NameNode 在 运行 过 程 中 所 产生 的 HDFS 的 元 数据 。 主 NameNode 和 备用 NameNode 通 
过 共享 存储 系统 实现 元 数据 的 同步 。 在 进行 主 备 切换 的 时 候 , 新 的 主 NameNode 在 确认 元 
数据 完全 同步 之 后 才能 继续 对 外 提供 服务 。 

DataNode 节点 除了 通过 共享 存储 系统 共享 HDFS 的 元 数据 信息 之 外 , 主 NameNode 
和 备用 NameNode 还 需要 共享 HDFS 的 数据 块 和 DataNode 之 间 的 映射 关系 。DataNode 
会 同时 向 主 NameNode 和 备用 NameNode 上 报 数据 块 的 位 置信 息 。 

2. 验证 数据 的 正确 性 

从 数据 节点 上 取 一 个 文件 块 有 可 能 是 坏 块 , 坏 块 的 出 现 可 能 是 存储 设备 错误 、 网 络 错误 
或 者 软件 的 漏洞 。HDFS 客户 端 实现 了 HDFS 文件 内 容 的 校 验 。 当 一 个 客户 端 创建 一 个 
HDFS 文件 时 , 它 会 为 每 一 个 文件 块 计算 一 个 校 验 码 并 将 校 验 码 存储 在 同一 个 HDFS 命名 
空间 下 一 个 单独 的 隐藏 文件 中 。 当 客户 端 访问 这 个 文件 时 , 它 根据 对 应 的 校 验 文件 来 验证 
从 数据 节点 接收 到 的 数据 。 如 果 校 验 失败 ,客户 端 可 以 选择 从 其 他 拥有 该 块 副本 的 数据 节 
点 获取 这 个 块 。 


11.6.2 HBase 


HBase 是 一 个 没有 单 点 故障 的 分 布 式 系 统 , 上 层 (HBase 层 ) 和 底层 (HDFS 层 ) 都 通过 

一 定 的 技术 手段 保障 了 服务 的 可 用 性 。 上 层 HMaster 一 般 都 是 高 可 用 部 署 ,而 
RegionServer 如 果 出 现 宕 机 ,region 迁移 的 代价 并 不 大 ,一 般 都 在 毫秒 级 别 完成 ,所 以 对 应 
用 造成 的 影响 也 很 有 限 ;底层 存储 依赖 于 HDFS, 数 据 本 身 默 认 也 有 三 个 副本 ,数据 存储 上 
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做 到 了 多 副本 元 余 ,而 且 Hadoop 2.0 以 后 NameNode 的 单 点 故障 也 被 消除 。 其 原理 如 下 。 
HBase 高 可 用 保证 在 出 现 异 常 时 ,快速 进行 故障 转移 。 下 面 让 我 们 先 来 看 看 HBase 高 

可 用 的 实现 ,如 图 11-14 所 示 。 
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图 11-14 HBase 高 可 用 示意 图 


图 中 一 个 Master 对 应 了 3 个 Slave,Master 上 每 个 RegionServer 都 有 一 份 HLog ,在 开 
启 Replication 的 情况 下 ,每 个 RegionServer 都 会 开启 一 个 线程 用 于 读 取 该 RegionServer 
上 的 HLog, 并 且 发 送 到 各 个 Slave, Zookeeper 用 于 保存 当前 已 经 发 送 的 HLog 的 位 置 。 
Master 与 Slave 之 间 采 用 异步 通信 的 方式 .保障 Master 上 的 性 能 不 会 受到 Slave 的 影响 。 
用 Zookeeper 保存 已 经 发 送 HLog 的 位 置 ,主要 考虑 在 Slave 复制 过 程 中 如 果 出 现 问题 后 重 
新 建立 复制 ,可 以 找到 上 次 复制 的 位 置 。 

HBase 同步 复制 步骤 如 下 。 

中 HBase Client 向 Master 写 人 数据 。 

回 RegionServer 写 完 HLog 后 返回 Client 的 请 求 。 

@ replication 线程 轮 询 HLog 发 现 有 新 的 数据 ,发 送 给 Slave。 

@ Slave 处 理 完 数据 后 返回 给 Master。 

@ Master 收 到 Slave 的 返回 信息 ,在 Zookeeper 中 标记 已 经 发 送 到 Slave 的 HLog 
位 置 。 

如 图 11-15 演示 了 上 述 步 又。 

HBase 通过 HLog 进行 数据 复制 ,从 复制 模式 上 来 讲 , HBase 支持 主 从 、 主 主 两 种 复制 
模式 ,也 就 是 经 常 说 的 Master-Slave、Master-Master 复制 。 
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11-15 HBase 同步 复制 步骤 示意 图 


11.6.3 Zookeeper 


Zookeeper 是 针对 大 型 分 布 式 系统 的 高 可 靠 的 协调 系统 , 它 主要 是 用 来 解决 分 布 式 应 
用 中 经 常 遇 到 的 一 些 数据 管理 问题 ,如 : 统一 命名 服务 ,状态 同步 服务 、 集 群 管理 ,分 布 式 应 
用 配置 项 的 管理 等 。 

开发 分 布 式 系统 是 件 很 困难 的 事情 ,其 中 的 困难 主要 体现 在 分 布 式 系统 的 “部 分 失败 ”。 
“部 分 失败 ”是 指 信息 在 网 络 的 两 个 节点 之 间 传 送 时 ,如 果 网 络 出 了 故障 ,发 送 者 无 法 知道 接 
收 者 是 否 收 到 了 这 个 信息 ,而 且 这 种 故障 的 原因 很 复杂 ,接收 者 可 能 在 出 现 网 络 错误 之 前 已 
经 收 到 了 信息 ,也 可 能 没有 收 到 ,或 者 接收 者 的 进程 死 掉 了 。 发 送 者 能 够 获得 真实 情况 的 唯 
一 办 法 就 是 重新 连接 到 接收 者 ,询问 接收 者 错误 的 原因 ,这 就 是 分 布 式 系统 开发 里 的 “部 分 
失败 ?问题 。 

Zookeeper 就 是 解决 分 布 式 系统 "部 分 失败 ”的 框架 。Zookeeper 不 是 让 分 布 式 系统 避 
免 “ 部 分 失败 ?问题 ,而 是 让 分 布 式 系统 碰 到 部 分 失败 时 ,可 以 正确 地 处 理 此 类 的 问题 ,让 分 
布 式 系统 能 正常 地 运行 。 

1. 统一 命名 服务 (Name Service) 

分 布 式 应 用 中 ,通常 需要 有 一 套 完 整 的 命名 规则 , 既 能 够 产生 唯一 的 名 称 又 便于 人 识别 
和 记 住 ,通常 情况 下 用 树 形 的 名 称 结构 是 一 个 理想 的 选择 , 树 形 的 名 称 结构 是 一 个 有 层次 的 
目录 结构 , 既 对 人 友好 又 不 会 重复 。Zookeeper 的 Name Service 与 JNDI 能 够 完成 的 功能 
是 差不多 的 ,它们 都 是 将 有 层次 的 目录 结构 关联 到 一 定 资源 上 ,但 是 Zookeeper 的 Name 
Service 更 加 是 广泛 意义 上 的 关联 ,也 许 并 不 需要 将 名 称 关联 到 特定 资源 上 ,可 能 只 需要 一 
个 不 会 重复 名 称 , 就 像 数 据 库 中 产生 一 个 唯一 的 数字 主键 一 样 。 

Name Service 已 经 是 Zookeeper 内 置 的 功能 ,只 要 调用 Zookeeper 的 API 就 能 实现 。 
如 调用 create 接口 就 可 以 很 容易 创建 一 个 目录 节点 。 





351 


数据 安全 与 灾 备 管理 





2. 配置 管理 (Configuration Management) 

配置 的 管理 在 分 布 式 应 用 环境 中 很 常见 ,例如 同一 个 应 用 系统 需要 多 台 PC Server 运 
行 , 但 是 它们 运行 的 应 用 系统 的 某 些 配置 项 是 相同 的 ,如 果 要 修改 这 些 相同 的 配置 项 ,那么 
就 必须 同时 修改 每 台 运 行 这 个 应 用 系统 的 PC Server, 这 样 非常 麻烦 而 且 容易 出 错 。 

类 似 这 样 的 配置 信息 完全 可 以 交 给 Zookeeper 来 管理 ,将 配置 信息 保存 在 Zookeeper 
的 某 个 目录 节点 中 ,然后 将 所 有 需要 修改 的 应 用 机 器 监控 配置 信息 的 状态 ,一 旦 配置 信息 发 
生变 化 ,每 台 应 用 机 器 就 会 收 到 Zookeeper 的 通知 ,然后 从 Zookeeper 获取 新 的 配置 信息 应 
用 到 系统 中 ,如 图 11-16 所 示 。 
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11-16 ”Zookeeper 配置 管理 结构 图 


3. 集群 管理 (Group Membership) 

Zookeeper 能 够 很 容易 地 实现 集群 管理 的 功能 ,如 有 多 台 Server 组 成 一 个 服务 集群 , 那 
么 必须 要 一 个 “总 管 "知道 当前 集群 中 每 台 机 器 的 服务 状态 一旦 有 机 器 不 能 提供 服务 ,集群 
中 其 他 集群 必须 知道 ,从 而 做 出 调整 并 重新 分 配 服 务 策略 。 同 样 当 增 加 集群 的 服务 能 力 时 ， 
就 会 增加 一 台 或 多 台 Server, 同 样 也 必须 让 “总 管 ”知道 。 

Zookeeper 不 仅 能 够 维护 当前 的 集群 中 机 器 的 服务 状态 ,而 且 能 够 选 出 一 个 “总 管 ”, 让 
这 个 总 管 来 管理 集群 ,这 就 是 Zookeeper 的 另 一 个 功能 Leader Election。 

4. 共享 锁 (Locks) 

共享 锁 在 同一 个 进程 中 很 容易 实现 ,但 是 在 跨 进程 或 者 在 不 同 Server 之 间 就 不 好 实现 
了 。Zookeeper 却 很 容易 实现 这 个 功能 。 实 现 方式 是 需要 获得 锁 的 Server 创建 一 个 
EPHEMERAL_SEQUENTIAL 目录 节点 ,然后 调用 getChildren 方法 获取 当前 的 目录 节点 
列表 中 最 小 的 目录 节点 是 不 是 就 是 自己 创建 的 目录 节点 ,如 果 正 是 自己 创建 的 ,那么 它 就 获 
得 了 这 个 锁 ; 如 果 不 是 , 它 就 调用 exists(String path，boolean watch) 方 法 并 监控 Zookeeper 
上 目录 节点 列表 的 变化 ,一 直到 自己 创建 的 节点 是 列表 中 最 小 编号 的 目录 节点 ,从 而 获得 
锁 。 释 放 锁 很 简单 ,只 要 删除 前 面 它 自己 所 创建 的 目录 节点 就 行 了 。 


11.6.4 OpenStack 


1. OpenStack 架构 与 HA 分 析 
OpenStack 实际 上 是 由 众多 服务 组 合 而 成 ,它们 之 间或 多 或 少 有 关联 ,而 且 具 有 一 定 的 
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层次 关系 ,每 个 服务 就 像 积 木 块 一 样 ,你 可 以 根据 实际 需要 进行 取舍 并 组 合 搭建 ,因此 良好 
的 运营 架构 整合 能 力 是 应 用 OpenStack 的 前 提 。 

在 OpenStack 的 计算 、 网 络 和 存储 服务 分 别 对 应 的 是 Nova、Neutron、Cinder 这 几 个 服 
务 。 从 社区 给 出 的 OpenStack 各 个 服务 的 应 用 统计 来 看 ,也 是 这 几 个 服务 接受 程度 最 高 ， 
也 相对 最 成 熟 ,另外 ,从 目前 OpenStack 生态 去 看 ,Swift 的 接受 程度 并 不 高 ,一 个 重要 原因 
是 Ceph 在 云 计 算 领域 的 开 疆 拓 土 一 定 程度 上 挤占 了 Swift 的 市 场 。 相 比 Swift 而 言 ,Ceph 
是 一 个 大 一 统 的 存储 解决 方案 ,在 对 象 存储 、 块 存储 \ 文 件 存储 三 大 方向 都 能 够 由 Ceph 底 
层 的 Rados 实现 ,虽然 Ceph Rados 不 具备 数据 排 重 等 高 级 功能 ,在 落地 存储 上 也 没有 自己 
很 核心 的 技术 ,但 是 在 整个 架构 的 Scaling 和 HA 处 理 方面 做 得 相当 不 错 ,其 设计 理念 比 代 
码 实 现 要 超前 。 统 一 起 来 相当 方便 ,而 这 三 者 恰恰 是 任何 一 个 通用 云 计算 平台 所 需要 的 。 

对 任何 一 个 分 布 式 系统 ,高 可 用 HA 都 是 最 核心 的 设计 目标 之 一 。 而 OpenStack 这 样 
一 个 复杂 系统 ,高 可 用 更 涉及 多 个 层面 ,只 要 有 一 个 层面 做 不 到 ,那么 整个 OpenStack 都 没 
法 实现 高 可 用 。 如 图 11-17 所 示 。 
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图 11-17 OpenStack 物理 架构 示意 图 


所 以 OpenStack 的 高 可 用 可 以 从 两 个 层面 去 划分 ,从 功能 服务 层面 划分 为 : 
。 基础 服务 (mysql,rabbitmq); 

。 计算 (nova); 

。 网 络 (neutron); 

。 存储 (cinder) 。 

从 物理 部 署 层面 划分 为 : 

。 控制 节点 (主要 部 署 基础 服务 十 其 他 服务 的 接 和 人、 调度 模块 ); 
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。 网 络 节点 (主要 部 署 Neutron 的 L2/L3/DHCP Agent,DHCP,Virtual Router); 

。 计算 节点 (Nova ComputeAgent. Neutron L2Agent, 虚 拟 机 ) 。 

不 管 从 那个 层面 去 划分 ,都 需要 确保 在 每 个 层面 上 的 高 可 用 ,并 且 在 各 个 层面 之 间 进 行 
有 效 衔接 。 

在 HA 设计 中 ,一 般 来 说 无 状态 的 模块 处 理 是 比较 简单 的 ,基本 思路 是 并 行 运 行 多 个 
节点 或 者 服务 模块 上 且 对 它们 进行 负载 均衡 。 典 型 例子 是 一 个 网 站 的 Web 服务 器 集群 ,往往 
采用 前 端 加 LVS 或 者 Nginx 之 类 的 LoadBanlace 服务 器 解决 HA 问题 。LVS 和 Nginx 的 
高 可 用 主要 是 利用 Keepalived、 Heartbeat 等 基于 路 由 宛 余 协议 VRRP 或 心跳 仲裁 机 制 来 
解决 。 

而 对 于 有 状态 的 模块 ,主要 有 两 种 方式 来 实现 HA ,一 种 是 多 节点 基于 分 布 式 一 致 性 协 
议 (比如 Paxos、Raft 协议 等 ) 维 护 相 同 的 状态 ,典型 的 代表 有 Zookeeper、Rabbitmq; 另 一 种 
是 基于 主 从 模式 的 同步 或 异步 复制 来 维护 相同 的 状态 ,比如 Mysql、Redis。 这 两 种 方式 前 
者 较 复杂 ,在 一 些 场景 下 性 能 会 很 低 , 后 者 在 数据 一 致 性 和 伸缩 性 方面 有 所 不 足 。 

如 前 面 提 到 OpenStack 的 情况 会 比较 复杂 ,实际 实践 中 这 两 种 都 会 混合 使 用 ,另外 有 
两 点 我 们 可 以 姑且 不 考虑 。 

(1) 计算 节点 ,主要 涉及 虚拟 机 的 可 用 性 ,而 虚拟 机 的 可 用 性 实际 上 是 跟 上 层 应 用 密切 
相关 的 (要 做 到 一 个 虚拟 机 严格 的 热 备 是 很 困难 的 ,存储 容易 做 到 ,但 是 CPU 和 内 存 就 难 
了 ,所 以 主要 还 是 靠 上 层 应 用 处 理 ) ,而 且 对 于 上 层 应 用 来 说 可 能 并 不 需要 ,应 用 可 能 有 助 于 
业务 逻辑 的 容错 设计 。 

(2) 存储 方面 ,Cinder 虽然 是 OpenStack 的 存储 服务 ,但 是 跟 Swift 不 同 , 打 个 比方 ， 
Cinder 只 是 一 个 存储 管理 器 而 不 是 存 数据 的 “硬盘 ”, 真 正 的 “硬盘 "是 底层 的 LVM、Ceph、 
GlusterFS 以 及 其 他 软件 或 硬件 构成 的 存储 系统 等 ,所 以 OpenStack 在 存储 方面 的 高 可 用 
更 多 的 是 指 Cinder 这 个 管理 器 的 高 可 用 性 ,而 数据 存储 的 高 可 用 性 已 经 由 底层 的 存储 系统 
来 解决 了 (比如 Ceph) 。 

综合 上 述 分 析 ,OpenStack 的 高 可 用 ,主要 是 确保 控制 节点 和 网 络 节 点 的 高 可 用 ,映射 
到 功能 服务 维度 上 ,就 是 确保 基础 服务 (Mysql 和 Rabbitmq) 高 可 用 , Nova、Neutron 和 
Cinder 的 接 入 与 调度 高 可 用 ,以 及 Neutron 所 创建 的 DHCP 和 Virtual Router 等 虚拟 网 络 
设施 的 高 可 用 。 下 面 逐 一 进行 探讨 。 

2. OpenStack 各 层次 的 HA 设计 

(1) 基础 服务 Mysql 和 RabbitMQ 

MySQI 作为 开源 DBMS 已 经 是 相当 成 熟 了 ,功能 也 非常 全 面 .支持 多 种 数据 库 表 引 
人 擎 ,生态 完善 ,但 是 如 果 从 分 布 式 数据 库 系统 的 角度 去 看 ,其 实 还 不 是 很 成 熟 。 目 前 大 家 用 
得 最 多 还 是 基于 binlog 复制 的 Master-Slave 模式 进行 数据 复制 ,并 基于 此 做 高 可 用 和 读 写 
分 离 等 设计 。 比 较 好 用 的 方案 有 MHA。 在 一 主 多 备 的 情况 下 ,能 够 在 最 少 的 数据 丢失 的 
基础 上 实现 一 定 的 分 布 式 容错 与 计算 ,如 图 11-18 所 示 。 

不 同 于 MHA 这 种 上 层 的 HA 方案 (主要 是 受 限 于 MySQL 基于 binlog 的 replication 
机 制 的 局 限 性 ,在 性 能 和 可 靠 性 方面 有 冲突 ) ,在 MySQL 的 MariaDB 和 Percona 分 支 上 ,使 
用 兼容 innodb 的 XtraDB 引擎 ,基于 Galera 集群 方式 的 分 布 式 方案 也 是 越 来 越 受 到 追捧 。 
虽然 复杂 度 更 高 ,但 是 分 布 式 实时 数据 一 致 性 的 优势 还 是 非常 吸引 人 的 。 当 然 , 这 种 方案 有 
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一 些 功能 上 的 局 限 性 ,另外 在 写 少 读 多 的 情况 下 其 实 相对 1-Master-N-Slave 架构 没有 多 少 
优势 ,如 图 11-19 所 示 。 
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11-19 Galera 集群 示意 图 


在 开源 的 分 布 式 消息 队列 里 面 ,Rabbitmq 算是 以 稳定 可 靠 而 著称 ,虽然 在 吞吐 量 上 与 
Kafka 族 系 的 消息 队列 有 一 些 差距 ,但 是 经 过 调 优 后 还 是 在 同一 个 数量 级 。 

Rabbitmq 内 置 有 Cluster 集群 功能 ,同一 个 Cluster 的 节点 会 共享 topic、exchange、 
binding 和 queue 等 元 信息 ,但 是 对 于 真正 的 queue 消息 数据 是 要 依赖 于 Mirror Queue 机 
制 来 实现 消息 的 HA 的 ,而 且 组 成 Cluster 建议 至 少 要 有 3 个 节点 ,否则 网 络 分 区 发 生 的 时 
候 也 不 好 做 决策 。 

(2) Nova、Neutron、Cinder 接 人 与 控制 服务 

解决 了 基础 服务 后 ,对 于 OpenStack 核心 的 Keystone、Nova-API、Nova-Conductor、 
Nova-Scheduler、Neutron-Server、Cinder-API、Cinder-Scheduler 等 ,其 实 都 是 无 状态 的 ,只 
要 多 出 两 个 ,并 且 能 够 做 到 负载 均衡 ,那么 也 就 基本 达成 了 HA 的 目标 了 (这 里 要 注意 Nova 
的 调度 和 Cinder 的 调度 需要 进行 同步 互 斥 )。 考 虑 到 OpenStack 的 对 外 API 基本 是 
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HTTP-RESTful 的 ,所 以 常见 的 是 采用 Nginx( 或 HAProxy) 十 keepalived( 或 PaceMaker) 
来 实现 这 一 层次 的 HA 接 入 ,如 图 11-20 所 示 。 
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11-20 OpenStack 实现 HA 示意 图 





(3) 网 络 服务 

在 OpenStack 中 ,网 络 处 理 占 据 了 相当 大 的 一 块 ,而 且 由 于 网 络 的 特殊 性 与 复杂 性 ,一 
般 要 独立 部 署 网 络 节点 。 网 络 节点 上 最 核心 的 就 是 L3Agent\DHCPAgent 以 及 由 它们 所 
管理 的 DHCP Server 和 Virtual Router 服务 。 

首先 看 DHCP, 可 以 在 多 个 网 络 节点 上 部 署 DHCP Agent 来 达到 多 DHCP Server 并 
行 , 且 把 用 户 私 有 网 络 的 DHCP 分 布 在 上 面 就 可 以 了 。 

对 于 Router 服务 ,由 于 涉及 路 由 和 外 网 接 入 ,所 以 这 里 不 能 同时 运行 多 个 一 样 的 
Router 服务 (地 址 与 路 由 冲突 问题 ), 目 前 简单 的 是 采取 A/P 模式 来 部 署 。 由 控制 节点 上 
的 L3 Router Plugin 去 对 网 络 节点 上 的 L3 Agent 周期 性 做 心跳 探测 ,从 而 实现 L3 Agent 
的 failover 机 制 , 当 出 现 故 障 时 迁移 Router 到 新 的 网 络 节点 上 。 

从 OpenStack Juno 版 本 开始 引入 了 分 布 式 虚拟 路 由 DVR, 核 心思 想 是 把 原来 网 络 节 
点 上 的 Router 服务 分 布 到 各 个 计算 节点 上 去 了 ,只 把 DHCP 和 SNAT 留 在 网 络 节 点 上 。 
这 样 就 大 大 增强 了 Router 的 容 灾 能 力 ,而 且 大 大 增强 了 整个 集群 的 东西 南北 向 通信 能力 
(突破 了 网 络 节点 的 瓶颈 ) 。 

总 而 言 之 ,OpenStack 在 整体 架构 上 是 可 以 整合 出 一 套 行 之 有 效 的 HA 方案 的 。 以 
OpenStack 为 基础 ,已 经 整合 构建 了 具有 和 较 高 可 用 性 的 弹性 计算 、 分 布 式 块 存储 和 虚拟 私有 
网 络 等 IaaS 核心 功能 。 


任务 拓展 


1. 为 什么 需要 大 数据 存储 技术 ? 
2. 分 布 式 文件 系统 的 意义 是 什么 ? 
3. 简单 介绍 大 数据 存储 的 关键 技术 。 
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